为 什么 要 写 这 本 书 


随 着 大 数据 的 概念 越 来 越 流行 ， 越 来 越 多 的 企业 开始 重视 数据 ， 期 待 从 数据 中 寻找 有 价值 的 结论 ， 以 指导 公司 管理 层 决策 ， 最 终 创 造 更 大 的 价值 。 但 是 在 游戏 行业 ， 数 据 分 析 的 发 展 相 对 缓慢 ， 很 多 游 
戏 公 司 是 在 发 现 人 口红 利 消失 后 才 逐 渐 重 视 数 据 ， 希 望 利用 数据 驱动 产品 。 而 在 各 种 数据 分 析 技 术 中 ，R 语 言 作为 一 个 可 进行 交互 式 数据 分 析 和 探索 的 强大 平台 ， 拥 有 举足轻重 的 作用 。R 语 言 的 免费 开源 使 
得 很 多 公司 用 它 来 处 理 数 据 、 展 示 数 据 、 分 析 数 据 、 完 成 模型 。 


使 用 R 语 言 可 以 进行 游戏 数据 分 析 系 统 的 搭建 ， 可 以 对 累积 的 海量 游戏 数据 进行 挖掘 ， 找 出 其 中 的 特征 和 规律 。 对 于 有 志 成 为 互联 网 数据 挖掘 /分 析 师 的 读者 来 说 ，R 语 言 将 成 为 他 们 未 来 必 备 的 技能 之 


笔者 在 历届 中 国 R 语 言 会 议 演 讲 时 ， 都 会 遇 到 一 些 同 学 问 类 似 这 样 的 问题 : “是 否 学 好 数据 挖掘 工具 就 能 胜任 数据 分 析 工 作 ? ”虽然 这 些 学 生 都 具备 很 好 的 理论 和 工具 使 用 能 力 ， 但 是 缺乏 对 实际 生产 数 
据 的 处 理 能 力 ， 即 学 生 们 很 少 接触 到 企业 的 真实 数据 ， 不 知道 如 何 将 脏 数据 处 理 为 可 以 建 模 的 数据 集 。 这 也 是 笔者 写 这 本 书 的 初 袁 。 在 本 书 中 ， 笔 者 希望 结合 自己 多 年 的 数据 挖掘 实战 经 验 ， 将 R 语 言 与 游戏 
数据 分 析 有 机 结合 ， 真 正 做 到 “ 授 之 以 渔 ”。 
本 书 特 色 

本 书 从 实际 应 用 出 发 ， 结 合 实例 及 应 用 场景 ， 通 过 对 大 量 案例 进行 详细 前 述 和 深入 分 析 ， 进 而 指导 读者 在 实际 工作 中 通过 R 语 言 对 游戏 数据 进行 分 析 和 挖掘 。 

本 书 的 核心 是 游戏 数据 分 析 实 战 ， 所 以 在 案例 讲解 过 程 中 均 会 对 分 析 结 果 进 行业 务 解读 ， 进 而 帮助 数据 分 析 师 提高 “利用 结果 数据 指导 实际 商务 决策 ”的 能 力 。 

基于 对 业务 的 思考 ， 本 书 从 解决 问题 入 手 ， 以 游戏 为 最 佳 切入 点 ， 辐 射 整个 数据 分 析 领 域 ， 并 完成 数据 分 析 和 挖掘 建 模 工作 ， 对 其 他 行业 的 数据 分 析 师 如 何 做 数据 分 析 / 挖 掘 也 具有 很 大 的 启发 性 。 同 


时 ， 本 书 内 容 涵盖 了 Ri 语言 基础 、 数 据 挖 所 理论 与 实战 、 交 互 式 绘 图 和 Web 网 页 开发 等 ， 故 也 可 以 作为 数据 挖掘 的 入 门 书籍 。 


本 书 适用 对 象 


“ 游戏 数据 分 析 人 员 

“ 各 行 各 业 的 数据 分 析 师 

“ 数据 分 析 爱 好 者 

" 具有 数据 分 析 背 景 的 数据 科学 家 

“ 进行 数据 挖掘 应 用 研究 的 科研 人 员 


“ 相关 专业 的 在 校生 


如 何 阅读 本 书 


全 书 一 共 13 章 ， 分 为 三 篇 : 基础 篇 、 实 战 篇 和 提高 篇 。 基 础 篇 介绍 了 游戏 数据 分 析 的 基本 理论 知识 、R 语 言 的 安装 与 使 用 、R 语 言 中 的 数据 结构 、 常 用 操作 和 绘图 功能 。 实 战 篇 主要 介绍 了 游戏 数据 的 预 
处 理 、 常 用 分 析 方 法 、 玩 家 路 径 分 析 和 用 户 分 析 。 提 高 篇 介绍 了 Ri 语言 图 形 界面 工具 Rattle 和 Web 开 发 框架 shiny 包 ，。 


第 一 篇 是 基础 篇 (第 1~4 章 ) : 第 1 章 主要 介绍 了 游戏 数据 分 析 的 必要 性 和 流程 ; 第 2 章 讲解 了 Ri 语言 和 RStudio 的 安装 及 使 用 方法 ， 并 对 数据 对 象 和 数据 导入 进行 了 介绍 ; 第 3 章 介 绍 了 R 语 言 绘图 基础 ， 
包括 常用 图 形 参数 设置 、 低 级 绘图 函数 和 高 级 绘图 函数 ; 第 4 章 介 绍 了 lattice 和 ggplot2 绘 图 包 ， 并 详细 介绍 了 一 些 基 于 Ri 语言 可 用 于 生成 交互 式 图 形 的 软件 包 ， 包 括 rCharts、recharts、rbokeh、plotly 


和 
本 oo 


二 篇 是 实战 篇 (第 5~11 章 ) : 第 5 章 介绍 了 游戏 数据 预 处理 常 用 的 手段 ， 包 括 数据 抽样 、 数 据 清洗 、 数 据 转换 和 数据 哑 变 量 处 理 ; 第 6 章 介绍 了 游戏 数据 分 析 的 常用 方法 ， 包 括 指标 数据 可 视 化 、 游 戏 
数据 趋势 分 析 、 游 戏 数据 相关 性 分 析 和 游戏 数据 中 的 降 维 技术 ;第 7 章 介绍 了 事件 点 击 行为 常用 的 漏斗 分 析 和 路 径 分 析 ; 第 8 章 介绍 了 留存 指标 的 计算 、 留 存 率 计算 与 预测 、 常 用 分 类 算法 原理 和 模型 评 佑 ， 
第 9 章 介绍 了 常用 用 户 指标 计算 、LTV 计 算 与 预测 、 用 户 物 品 购买 关联 分 析 、 基 于 用 户 物品 购买 智能 推荐 和 社会 网 络 分 析 ; 第 10 章 介绍 了 渠道 数据 分 析 的 必要 性 和 对 渠道 用 户 进行 质量 评级 ; 第 11 章 介绍 了 常 
用 收入 指标 计算 、 利 用 用 户 活跃 度 衡量 游戏 经 济 状况 、RFM 模 型 研究 。 


第 三 篇 是 提高 篇 (第 12~13 章 ) : 第 12 章 介绍 了 R 语 言 的 图 形 界 面 工具 Rattle， 该 工具 能 够 在 图 形 化 的 界面 上 完成 数据 导入 、 数 据 探 索 、 数 据 可 视 化 、 数 据 建 模 和 模型 评估 整个 数据 挖掘 流程 ; 第 13 章 介 


绍 了 Web 开 发 框架 shiny 包 ， 使 得 R 的 使 用 者 不 必 太 了 解 CSS、JS， 只 需要 了 解 一 些 HTML 的 知识 就 可 以 快速 完成 Web 开 发。 


勘误 和 支持 


由 于 笔者 的 水 平 有 限 ， 书 中 难免 会 出 现 一 些 错 误 或 者 不 准确 的 地 方 ， 居 请 读者 批评 指正 。 你 可 以 把 意见 或 建议 直接 发 至 我 的 邮箱 (jiabiao1602@163.com) 。 如 果 你 有 什么 问题 ， 也 可 以 发 邮件 来 提 
问 ,我 将 尽力 为 读者 提供 满意 的 解答 ， 期 待 你 们 的 反馈 。 书 中 全 部 数据 及 源 代码 都 可 以 从 GitHub 网 站 (登录 网 站 https://github.com/jiabiao 1602/Game_DataMining_With_R 或 扫描 下 方 二 维 码 ) 进行 下 
载 。 


致谢 

首先 ， 感 谢 乐 喜 游 戏 CEO 陈 湘 宇 的 支持 ， 让 笔者 能 把 这 几 年 在 游戏 行业 中 的 一 些 数据 挖掘 实战 写 进 本 书 ， 使 读者 能 完整 地 看 到 如 何 对 原始 的 数据 源 进行 清洗 转换 以 达到 建 模 需求 。 书 中 介绍 了 对 游戏 行 
业 付 费用 户 行为 研究 的 几 种 模型 算法 ， 相 信 对 其 他 行业 进行 付费 用 户 挖掘 分 析 也 可 以 起 到 很 好 地 借鉴 作用 。 

其 次 ， 感 谢 机 械 工业 出 版 社 华章 公司 副 总 编 杨 福 川 的 信任 ， 同 时 ， 也 要 感谢 编辑 李 艺 审阅 本 书 的 全 部 章节 ， 有 了 他 们 的 支持 、 鼓 励 和 帮助 ， 本 书 才能 得 以 顺利 出 版 。 

最 后 ， 感 谢 家 人 ， 感 谢 你 们 一 直 以 来 的 理解 、 陪 伴 和 支持 。 


谨 以 此 书 献 给 我 最 杀 爱 的 家 人 以 及 众多 R 语 言 的 爱好 者 和 数据 分 析 师 们 ! 


第 一 篇 ”基础 篇 


. 第 1 章 ”什么 是 游戏 数据 分 析 
. 第 2 章 ” 必 备 R 语 言 基础 
. 第 3 章 RR 语言 绘图 重要 技术 


` 第 4 章 ”高 级 绘图 工具 


第 1 草 什么 是 游戏 数据 分 析 


随 着 游戏 市 场 竞 争 的 日 趋 激烈 ， 在 如 何 获 得 更 大 收益 延长 游戏 周期 的 问题 上 ， 越 来 越 多 的 手机 游戏 开发 公司 开始 选择 借助 大 数据 ， 以 便 挖 所 更 多 更 细 的 用 户 群 来 进行 精细 化 、 个 性 化 的 运营 。 数 据 分 析 
重要 的 不 是 提供 历史 和 现状 ， 而 是 通过 分 析 发 现 手机 游戏 现状 ， 以 及 对 未 来 进行 预测 。 一 切 以 数据 出 发 ， 用 数据 说 话 ， 让 数据 更 好 地 指导 运营 服务 好 玩家 ， 对 玩家 的 行为 和 体验 不 断 进行 分 析 和 调整 ， 使 玩 
家 可 以 在 虚拟 世界 中 得 到 各 方面 的 满足 。 要 实现 这 个 目的 ， 需 要 搭建 专业 的 数据 化 运营 团队 。 此 外 ， 游 戏 数据 分 析 与 其 他 行业 的 数据 分 析 不 同 的 是 ， 游 戏 综合 了 经 济 、 广 告 、 社 交 、 心 理 等 方面 的 内 容 ， 这 
就 对 数据 分 析 师 提出 了 更 高 的 要 求 。 


1.1 为 什么 要 对 游戏 进行 分 析 


伴随 着 游戏 互联 网 的 快速 发 展 和 智能 终端 的 普及 ， 移 动 游戏 进入 了 全 民 时 代 。 越 来 越 多 的 玩家 利用 碎片 化 时 间 进 行 游戏 ， 使 得 游戏 数据 呈现 井喷 式 增长 ， 同 时 也 对 数据 存储 技术 、 计 算 能 力 、 数 据 分 析 
手段 提出 了 更 高 的 要 求 。 海 量 数据 的 存储 是 必须 面 对 的 第 一 个 挑战 ， 随 着 分 布 式 技术 的 逐渐 成 熟 ， 越 来 越 多 的 互联 网 企业 采用 分 布 式 的 服务 器 集群 + 分布 式 存储 的 海量 存储 器 进行 数据 的 存储 和 计算 ， 从 而 
解决 数据 存储 和 计算 能 力 不 足 的 问题 。 如 何在 海量 的 、 复 杂 高 维 的 游戏 数据 中 发 气 出 有 价值 的 知识 ， 将 是 很 多 公司 下 一 步 束 待 解决 的 难题 。 


虽然 积累 了 海量 的 玩家 数据 ， 很 多 公司 也 开发 了 自己 的 Bl 报表 系统 ， 但 是 多 数 停留 在 “看 数据 ”阶段 ， 还 是 用 传统 的 数据 分 析 方 法 对 数据 进行 简单 的 加 工 、 统 计 及 展示 ， 并 没有 进行 深度 挖 握 发 现 数据 
背后 的 规律 和 把 握 未 来 趋势 。 正 是 在 这 样 的 大 背景 下 ， 游 戏 数据 分 析 逐 渐 在 游戏 行业 中 变 得 重要 。 公 司 需 要 从 传统 的 粗放 型 运营 进化 到 精细 化 运营 ， 从 而 了 解 如 何 有 效 地 获取 用 户 、 评 佑 效果 ; 如 何 激活 用 
户 、 评 估 产 品质 量 ; 如何 提 升 收益 ， 并 挖掘 潜在 的 高 价值 用 户 。 要 满足 精细 化 运营 的 需求 ， 数 据 化 运营 就 应 运 而 生 了 。 数 据 化 运营 就 是 在 以 海量 数据 的 存储 、 分 析 、 挖 气 和 应 用 的 核心 技术 支持 的 基础 上 ， 
通过 可 量化 、 可 细 分 、 可 预测 等 一 系列 精细 化 的 方式 来 进行 的 。 

数据 化 运营 是 飞速 发展 的 数据 存储 技术 、 数 据 挖 握 技 术 等 诸多 先进 数据 技术 直接 推动 的 结果 。 数 据 技术 的 飞速 友 展 ， 使 数据 存储 成 本 大 大 减低 ， 同 时 提供 了 成 熟 的 数据 挖 握 算法 和 工具 让 公司 可 以 去 尝 


试 海量 数据 的 分 析 、 挖 所 、 提 炼 和 应 用 。 有 了 数据 分 析 、 数 据 挖掘 的 强 有 力 支 持 ， 运 营 不 再 靠 “ 拍 脑袋 ”， 可 以 真正 做 到 运营 过 程 自始至终 都 心中 有 数 。 比 如 ， 在 玩家 的 细 分 推送 中 ， 数 据 分 析 师 利用 数据 
挖 扎 手段 对 玩家 进行 分 群 ， 运 营 根 据 不 同 的 用 户 群 制定 差异 化 策略 ， 数 据 分 析 师 再 根据 推送 效果 进行 评估 。 


1.2 ”游戏 数据 分 析 的 流程 


游戏 数据 分 析 、 数 据 挖 掘 的 价值 一 定 要 落实 到 具体 的 业务 应 用 中 才 可 以 得 到 检验 和 实现 ， 所 以 需要 流程 和 制度 来 有 效 保障 最 终 的 业务 实践 效果 。 这 些 流程 一 方面 可 以 促使 各 相关 方 在 数据 分 析 业 务实 践 
的 不 同 阶段 落实 各 自 的 角色 、 分 工 和 价值 ， 维 护 整 个 业务 流 的 畅通 和 效率 ; 另 一 方面 可 以 有 效 达 成 数据 分 析 项 目 中 各 环节 的 阶段 性 目标 。 


游戏 数据 分 析 整 体 流程 可 以 参考 跨行 业 的 数据 挖掘 标准 流程 CRISP-DM 方 法 论 ， 它 是 一 种 业界 认可 的 用 于 指导 数据 挖掘 工作 的 方法 。 按 照 CRISP-DM 方 法 论 ， 一 个 游戏 数据 分 析 的 完整 流程 包括 6 个 阶 
及， 分 别 是 业务 理解 、 数 据 理 解 、 数 据 准 备 、 建 立 模型 、 模 型 评估 和 模型 发 布 。 这 6 个 阶段 的 顺序 并 不 是 固定 不 变 的 ， 在 不 同 的 业务 场景 中 ， 可 以 有 不 同 的 流转 方向 。 但 是 总 体 来 说 ， 业 务 理解 是 第 一 位 的 ， 
是 游戏 数据 分 析 流程 中 的 第 1 环节 ， 制 定 了 业务 目标 后 ， 就 可 以 针对 业务 目标 进行 数据 收集 、 数 据 清 尘 、 数 据 转换 、 数 据 建 模 及 模型 评估 等 流程 。 


图 1-1 是 CRISP-DM 方 法 论 的 示意 图 。 它 的 外 圈 象 征 游戏 数据 分 析 自 身 的 循环 本 质 ， 数 据 分 析 过 程 可 以 不 断 循环 、 优 化 ， 后 续 的 过 程 可 以 从 前 面 的 过 程 中 得 到 借鉴 和 启发 。 


. 业务 理解 : 该 阶段 的 核心 内 容 包括 正确 理解 业务 背景 和 业务 需求 ， 同 时 能 把 业务 需求 有 效 转化 成 合理 的 分 析 需 求 ， 并 设计 指标 体系 和 拟定 实施 计划 。 例 如 ， 了 业务 有 关于 核心 用 户 画像 的 需求 ， 但 是 由 
于 休闲 游戏 的 大 多 数 玩 家 是 游客 登录 ， 并 没有 注册 ， 所 以 无 法 收集 到 玩家 的 基础 属性 信息 ， 从 而 不 能 帮助 业务 对 核心 用 户 的 性 别 、 年 龄 、 职业 等 属性 进行 画像 ， 此 时 可 以 从 游戏 活跃、 付费 、 行为 等 角度 进 
行 核 心 用 户 画 像 ， 将 业务 的 需求 转换 成 目前 数据 能 支撑 到 的 分 析 需 求 。 


收集 数据 ， 并 对 可 用 的 数据 
进行 评估 ， 识 别 数据 质量 问 


确认 业务 目标 ， 设 计 指标 
体系 ， 拟 定 实施 计划 


本 


将 模型 应 用 于 业务 实践 ， 
才能 实现 数据 分 析 挖掘 的 
商业 价值 


“对 可 用 的 原始 数据 进行 一 
系列 的 组 织 以 及 清洗 , 使 
， 之 达到 建 模 需求 


_ 即 应 用 数据 控 掘 工具 建立 ， 
数据 控 气 模 


fF 


评估 模型 的 稳定 性 ， 重 点 
考虑 得 出 的 结果 是 否 符合 


图 1-1 CRISP-DM 方 法 论 示意 图 


* 数据 理解 : 该 阶段 从 数据 收集 开始 ， 并 对 可 用 的 数据 进行 数据 探索 和 评估 ， 识 别 数据 质量 问题 ， 发 现 数据 不 同属 性 间 的 关系 。 


* 数据 准备 : 这 个 阶段 主要 是 做 数据 清洗 和 转换 工作 ， 包 含 数 据 缺 失 值 和 异常 值 的 处 理 ， 保 证 建 模 前 的 数据 质量 ; 数据 的 重组 、 转 换 以 及 衍生 等 处 理 ， 比 如 对 数据 进行 标准 化 处 理 、 对 某 些 指标 进行 分 


箱 操 作 以 便 达 到 建 模 需求 。 
“ 建立 模型 : 这 是 游戏 数据 分 析 流 程 中 技术 含量 最 高 的 阶段 ， 数 据 分 析 师 应 该 根据 项 目 需求 和 数据 特点 选择 合适 的 算法 ， 并 使 用 专业 的 数据 挖掘 工具 建立 模型 。 


* 模型 评估 : 评估 建立 模型 的 稳定 性 和 有 效 性 ， 常 用 的 模型 评估 方法 有 混 清和 矩阵 、ROC 曲 线 、 氏 -S 曲 线 、 交 叉 验 证 等 。 根 据 评 估 结 果 判 断 是 否 满足 当初 的 业务 需求 ， 如 果 模 型 未 满足 需求 ， 需 要 重复 上 一 
阶段 的 建 模 工作 ， 有 时 甚至 需要 从 数据 收集 阶段 重新 开始 。 如 果 现 有 数据 不 能 满足 分 析 需 求 ， 就 需要 业务 和 开发 人 员 参 与 ， 在 游戏 中 重新 埋 点 收集 数据 。 


* 模型 发 布 : 将 模型 应 用 于 业务 实践 ， 才 能 实现 数据 分 析 挖 据 的 商业 价值 。 根 据 业 务 反 馈 的 结果 ， 进 而 调整 分 析 方法 。 


1.3 数据 分 析 师 的 能 力 要 求 


因为 在 数据 化 运营 中 ， 数 据 分 析 师 要 深入 业务 背景 ， 倾 听 和 发 现 业务 需求 ， 走 到 业务 第 一 线 ， 与 业务 团队 并 肩 作战 ， 所 以 要 求 数 据 分 析 师 具备 很 强 的 组 织 协调 能 力 ， 具 有 项 目 大 局 观 ， 懂 得 在 不 同 阶段 
调用 不 同 的 资源 。 从 这 点 来 看 ， 业 务 理解 力 和 沟通 能 力 的 重要 性 甚至 要 超过 技术 层面 的 能 力 (数据 处 理 能 力 、 数 据 统计 分 析 能 力 、 数 据 挖掘 能 力 、 数 据 应 用 能 力 ) 。 图 1-2 是 游戏 数据 分 析 师 需要 具备 的 关键 


bb 
Bt/J。 


数据 5。 | 应 用 


-一 一 一 一 一 一 -- 


使 用 分 析 


调研 方案 开发 落地 


图 1-2 ”数据 分 析 师 关键 能 力 示意 图 
首先 数据 分 析 师 要 具备 组 织 能 力 。 这 体现 在 项 目前 期 调研 、 方 案 制定 、 项 目 开发 和 项 目 落地 的 职责 和 能 力 要 求 。 
. 调研 : 深入 业务 背景 ， 发 现 、 倾 听 业务 需求 。 
. 方案 : 通过 前 期 调研 ， 有 效 判别 分 析 需 求 价值 ， 根 据 需求 能 有 效 提供 分 析 解 决 方案 。 
. 开发 : 针对 制定 的 解决 方案 ， 能 通过 技术 手段 进行 项 目 开发 。 
“落地: 将 开发 成 果 结 合 业务 场景 进行 落地 ， 并 持续 跟踪 落地 应 用 效果 ， 修 正 或 优化 方案 和 模型 。 


数据 处 理 能 力 、 数 据 挖 掘 能 力 和 数据 应 用 能 力 这 三 大 块 能 力 需 要 数据 分 析 师 通过 时 间 、 项 目 经 验 去 磨 大 ， 不 断 成 长 ， 懂 得 何 时 运用 哪 种 数据 挖掘 技术 解决 相应 的 问题 。 
1.3.1 数据 处 理 能 力 


刚刚 收集 上 来 的 raw data (原始 数据 ) 一 般 存 在 脏 数 据 ， 不 能 达到 直接 建 模 的 要 求 。 我 们 不 能 直接 利用 raw data 进 行 数据 分 析 建 模 ， 所 谓 “垃圾 进 垃圾 出 ”， 这 样 得 到 的 分 析 结 果 也 不 一 定 是 可 靠 的 。 


对 于 raw data， 我 们 需要 评估 数据 质量 ， 清 洗 脏 数据 ， 通 常 包括 缺失 值 和 异常 值 的 处 理 ， 使 之 达到 数据 分 析 的 需求 。 假 如 现在 有 一 份 30 万 的 用 户 调研 数据 ， 由 于 某 些 玩家 不 愿意 填写 自己 的 性 别 、 收 入 等 ， 
导致 这 些 变量 存在 数据 缺失 的 情况 。 现 在 利用 数据 分 析 技 术 对 缺失 值 模式 进行 可 视 化 探索 ， 如 图 1-3 所 示 。 


由 图 1-3 可 知 ， 有 2 万 位 玩家 没有 填写 性 别 信息 ， 其 中 有 609 位 玩家 同时 缺失 性 别 、 年 龄 信息 ，31 位 玩家 同时 缺失 性 别 、 年 龄 和 收入 的 信息 。 掌 握 了 数据 缺失 模式 后 ， 就 知道 应 该 运用 何 种 技术 处 理 这 些 
缺失 值 。 
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图 1-3 ”对 数据 调研 数据 进行 缺失 值 可 视 化 


针对 异常 值 数 据 ， 我 们 同样 希望 能 通过 科学 的 方式 甄别 异常 值 并 处 理 。 例 如 ， 可 以 利用 箱 线 图 发 现 异 常 值 ， 并 在 图 上 打印 出 异常 值 的 样本 号 和 数值 ， 直 观 地 对 腊 常 值 进行 可 视 化 展示 。 比 如 现在 有 某 个 
月 日 新 增 用 户 在 第 30 日 留存 率 的 数据 ， 通 过 普通 曲线 图 很 难 发 现 是 否 有 某 些 天 的 新 增 在 第 30 日 留存 人 存在 异常 情况 。 此 时 可 以 借助 箱 线 图 的 方式 甄别 异常 值 ， 如 图 1-4 所 示 。 


0.06 


o 6 月 5 日 0.0579 
o 6 月 9 日 0.055 


o 6 月 6 日 0.0497 


图 1-4 ”利用 箱 线 图 甄别 异常 值 


0.05 


由 图 1-4 可 知 ， 这 个 月 有 三 天 的 新 增 用 户 在 第 30 日 留存 率 低 于 正常 水 平 ， 分 别 是 5 日 、6 日 和 9 日 。 


进行 数据 清洗 后 ， 有 时 候 还 需要 对 数据 进行 数据 整合 转换 ， 使 之 符合 建 模 前 的 数据 需求 ， 常 用 的 一 种 方式 是 添加 衍生 变量 。 所 谓 衍 生变 量 ， 其 实 就 是 指数 据 分 析 师 在 分 析 ( 建 模 ) 过 程 中 人 为 增添 的 一 
些 新 变量 ， 这 些 新 变量 产生 之 后 ， 可 以 明显 提升 模型 的 效果 ,或 者 可 以 有 效 提炼 出 有 价值 的 分 析 结 论 。 


1.3.2 ”数据 挖掘 能 
数据 分 析 师 在 建 模 的 过 程 中 ， 需 要 根据 业务 需求 和 数据 特点 选择 合适 的 算法 ， 利 用 专业 的 数据 挖掘 工具 进行 建 模 ， 并 评估 模型 效果 。 比 如 在 面 对 用 户 分 析 的 需求 时 ， 可 分 别 分 析 玩 家 点 击 行为 的 路 径 和 
玩家 购买 的 道具 ， 根 据 不 同 的 方向 和 目标 选择 不 同 的 算法 和 工具 。 


如 图 1-5 所 示 ， 在 研究 玩家 的 点 击 行为 时 ， 如 果 是 单 路 径 情况 ， 可 以 使 用 漏斗 图 查看 每 一 步 的 转化 情况 ; 如 果 是 多 路 径 的 点 击 情况 ， 可 以 使 用 unburst 事 件 路 径 图 快速 定位 用 户 的 主要 点 击 路 径 ， 也 可 
以 利用 社会 网 络 图 对 玩家 间 的 点 击 事件 关系 进行 可 视 化 。 


a) sunburst 事件 路 径 图 b) 社会 网 络 关 系 图 


图 1-5 ”分 析 玩 家 点 击 行 为 路 径 


在 研究 玩家 的 购买 行为 时 ， 可 以 利用 关联 规则 发 现 购 买 物品 之 间 的 关系 ， 如 图 1-6 所 示 。 


Grouped matrix for 13 rules 


size: support 
color: lift 


{ 双 倍 金币 }-1 mles 
[38000 金 币 }-]1 rmules 


{限量 版 角色 }-2 mules 
{解锁 滑板 }-2 mules 


{解锁 滑板 ，+1 items}-1 rales 
{3000 金 币 }-1 mles 
{20 条 钥匙 }-1 rules 


RHS 
fe a : i SO rm se ; EM Pe ne te BO Ee { 超 值 大 礼包 } 


{解锁 滑板 ，+l1 items}-1 rules 


{ 双 售 人 金币，+l1 items}-1 rules 


{ 超 值 大 礼包 }--1 mles 


LHS 


{新 手 礼包 } 
{3000 人 金币 } 
{ 双 倍 金 币 } 
{限量 版 和 角色} 


{解锁 滑板 } 


图 1-6 ”关联 规则 关联 图 形 


1.3.3 ”数据 应 用 能 力 


由 于 业务 团队 的 数据 分 析 意 识 和 能 力 不 如 专业 的 数据 分 析 师 ， 他 们 大 多 不 懂 解 读 模 型 结果 。 此 时 需要 数据 分 析 师 将 模型 得 到 的 知识 用 朴素 的 业务 语言 表达 出 来 ， 从 而 利用 分 析 结 果 指 导 运 营 和 营销 活 
动 。 以 图 1-6 为 例 ， 业 务 团队 一 般 看 不 懂 这 个 图 传递 的 信息 ， 需 要 帮 他 们 解读 。 比 如 圆圈 越 大 表示 两 者 的 关联 关系 越 强 ， 很 多 玩家 都 购买 过 超级 大 礼包 和 新 手 礼包 这 两 个 道具 ， 在 做 运 曹 活动 时 ， 可 以 将 这 两 


个 礼包 进行 捆绑 销售 ， 提 高 另外 一 个 道具 的 销量 。 


1.4 人 小结 


本 章 介绍 了 游戏 数据 分 析 的 目的 和 打造 数据 化 运营 团队 的 重要 性 。 一 位 出 色 的 游戏 数据 分 析 师 不 仅仅 要 具备 统计 技能 、 数 据 库 知 识 、 数 据 挖掘 技能 ， 还 需要 具有 很 好 的 业务 理解 能 力 和 快速 学 习 能 力 ， 
能 通过 自身 的 专业 知识 满足 不 同业 务 的 数据 需求 ， 并 推动 模型 落地 。 


第 2 章 ” 必 备 R 语 言 基础 


本 章 将 介绍 R 语 言 的 基础 知识 ， 包 括 三 大 部 分 的 内 容 : 第 一 部 分 是 R 语 言 的 简介 、R 及 常用 编辑 器 的 安装 及 使 用 ;第 二 部 分 是 R 语 言 的 数据 对 象 的 创建 数据 ; 第 三 部 分 是 数据 的 导入 。 


2.1 ”开发 环境 准备 和 快速 入 门 
2.1.1 _R 语 言 简介 


R 语 言 的 前 身 是 9 语言 ，S 语 言 是 由 AT&T Bell 实 验 室 的 Rick Becker、John Chambers 和 Allan Wilks 开 发 的 一 种 用 来 进行 数据 探索 、 统 计 分 析 、 作 图 的 解释 型 语言 。 最 初 $ 语 言 的 实现 版 本 主要 是 S- 
PLUS。S-PLUS 是 一 个 商业 软件 ， 它 基于 S$ 语言， 并 由 MathSoft 公 司 的 统计 科学 部 进一步 完善 。 而 R 语 言 最 初 由 来 自 新 西 兰 大 学 的 Ross Ihaka 和 Robert Gentleman 开 发 (由 于 他 们 的 名 字 都 以 R 开 头 ， 所 以 
该 软件 被 命名 为 R) 。 因 为 R 语 言 是 基于 S 语 言 的 一 个 GNU 项 目 ， 所 以 也 可 以 当 作 S 语 言 的 一 种 实现 ， 通 常用 S 语 言 编写 的 代码 都 可 以 不 做 修改 地 在 R 语 言 环境 下 运行 。 


R 语 言 是 一 套 开源 的 数据 分 析 解 决 方案 ， 几 乎 可 以 独立 完成 数据 处 理 、 数 据 可 视 化 、 数 据 建 模 及 模型 评估 等 工作 ， 而 且 可 以 完美 配合 其 他 工具 进行 数据 交互 。 具 体 来 说 ，R 语 言 具有 以 下 优势 : 
1) R 语 言 作为 一 种 GNU 项 目 ， 开 放 了 全 部 源 代码 ， 用 户 可 以 免费 下 载 使 用 和 修改 。 

2) R 语 言 可 以 运行 在 多 种 平台 上 ， 包 括 Windows、UNIX 和 Mac OS。 

3) R 语 言 可 以 轻松 地 从 各 种 类 型 的 数据 源 导入 数据 ， 包 括 文 本 文件 、 数 据 库 管 理 系统 、 统 计 系 统 乃 至 Hadoop、Spark 等 。 它 同样 可 以 将 数据 输出 并 写 入 这 些 系统 中 。 

4) R 语 言 内 置 多 种 统计 学 及 数据 分 析 功能 。 因 为 有 s 的 血缘 ， 所 以 R 比 其 他 统计 学 或 数学 专用 的 编程 语言 有 更 强 的 面向 对 象 的 功能 。 


5) R 语 言 拥 有 顶尖 的 制图 功能 。 不 仅 有 lattcie 包 、ggplot2 包 对 复杂 数据 进行 可 视 化 ， 更 有 rCharts 包 、recharts 包 、plotly 包 实现 数据 交互 可 视 化 ， 甚 至 可 以 利用 功能 强大 的 shiny 包 实现 R 与 Web 整 合 
部 署 ， 构 建 网 页 应 用 ， 帮 助 不 懂 C9S、HTML 的 用 户 利用 R 快 速 搭建 自己 的 数据 分 析 App 应 用 。 


当然 ，R 语 言 也 存在 一 些 固有 的 缺点 ， 目 前 主要 的 问题 有 如 下 三 点 : 


1) R 语 言 是 一 种 解释 型 语言 ， 和 编程 语言 相 比 ， 速 度 显得 略 慢 一 些 ， 但 是 随 着 硬件 和 R 自 身 的 发 展 ， 这 个 问题 已 经 被 慢 慢 弱化 了 ， 而 且 如 果 能 够 熟练 运用 向 量化 运算 ,可 以 大 大 提高 速度 ， 并 且 若 使 用 R 
内 置 的 分 析 遂 数 ， 效 率 高 很 多 ， 因 为 很 多 函数 都 是 由 C 或 者 Fortran 编 写 的 。 


2) R 所 有 的 计算 实际 是 基于 内 存 进行 的 ， 这 就 意味 着 ， 在 处 理 数据 的 过 程 中 ， 数 据 必须 完整 地 装 入 内 存 当 中 ， 这 在 处 理 小 型 数据 是 没有 任何 问题 的 ， 但 是 当 遇 到 大 数据 时 ， 问 题 就 会 变 得 很 严重 。 但 
， 这 个 问题 也 得 到 了 一 定 的 解决 ， 可 以 利用 并 行 包 提 升 R 的 性 能 ， 或 者 利用 R 结 合 Hadoop 的 方式 进行 大 数据 分 析 工 作 。 


各 


3) 由 于 R 语 言 的 自由 ， 各 种 包 的 编写 者 来 自 不 同 的 领域 ， 所 以 在 一 定 程度 上 是 比较 混乱 的 ， 没 有 统一 的 命名 格式 ， 参 数 格 式 不 一 ， 源 代码 和 文档 质量 良 芜 不 齐 。 


2.1.2”R 的 安装 


截至 目前 (撰写 本 书 时 ) ，R 的 最 新 版 本 是 3.4.0， 可 以 在 CRAN (Comprehensive R Archive Network) 获取 最 新 版 本 。 在 https://www.r-project.org/ 页 面 点 击 download R 可 以 进入 CRAN 镜 像 站 地 
址 https://cran.r-project.org/mirrors.html， 其 中 包含 中 国 大 陆地 区 的 7 个 镜像 地 址 ， 你 可 以 选择 距离 最 近 的 地 址 进入 其 镜像 的 详细 页 面 。 此 外 ， 通 过 该 页 面 可 以 下 载 Linux、MacOS 和 和 Windows 操 作 系 统 
的 安装 包 。 如 果 需 要 安装 旧版 的 R， 可 以 到 https://cran.r-project.org/bin/ 下 载 对 应 的 版 本 。 


本 书 使 用 的 是 Windows 操 作 系 统 下 的 R 3.2.2 版 本 。 直 接 双击 下 载 好 的 R-3.2.2-win.exe 进 行 安 装 即 可 。 安 装 完成 后 ， 双 击 桌面 图 标 启 动 R， 打 开 如 图 2-1 所 示 的 界面 。 
R 的 界面 相当 简洁 ， 只 有 为 数 不 多 的 几 个 菜单 栏 和 快捷 按钮 。 快 捷 按 钮 下 面 是 主 控制 台 ， 它 是 输入 脚本 和 执行 结果 窗口 。 
2.1.3 ”其 他 辅助 工具 


与 传统 的 数据 挖掘 工具 ?AS、SPSs 和 IBM SPSS Modeler 等 软件 相 比 ，R 的 缺点 在 于 没有 友好 的 操作 菜单 ， 这 会 使 很 多 熟悉 其 他 工具 的 用 户 起 初 会 党 得 很 困难 。 幸 好 ，R 自 由 的 特性 得 到 很 好 的 发 挥 ， 有 
用 户 贡献 的 R 包 实现 了 很 多 功能 的 菜单 化 操作 。 下 面 介绍 一 个 比较 友好 的 编辑 器 和 一 个 可 以 实现 菜单 化 操作 完成 数据 挖掘 工作 的 包 。 


R version 3.2.2 (2015-08-14) -—- "Fire Safety" 
Copyright {C) 2015 The R Foundation for Statistical Computing 
Platform: x86 64-w64-mingw32/x64 (64-bit) 


R 是 自由 软件 ， 不 带 任 何 担保 。 
在 某 些 条 件 下 你 可 以 将 其 自由 散布 . 
用 '1license() ' 或 'licence() ' 来 看 散布 的 详细 条 件 . 


R 是 个 合作 计划 ， 有 许多 人 为 之 做 出 了 贡献 . 
用 'contributors 人 来 看 合作 者 的 详细 情况 
用 'citation() ' 会 告诉 你 如 何在 出 版 物 中 正确 地 引用 R 或 R 程 序 包 。 


用 'demo () ' 来 看 一 些 示范 程序 ， 用 'help() ' 来 阅读 在 线 帮 助 文件 ， 或 
站 'help ig () ' 通 过 HTML 浏 览 器 来 看 帮助 文件 。 
"ql()'" R. 


图 2-1 R-3.2.2 启 动 界 面 


虽然 现在 有 很 多 可 用 的 1DE， 但 是 现在 最 好 用 的 应 该 是 Rstudio， 它 是 专门 用 于 R 语 言 环境 的 IDE。 Rstudio 可 用 于 Windows、Mac 和 Linux， 并 且 可 以 在 Linux 环 境 中 安装 Rstudio-Server， 它 允许 用 户 通 
过 一 个 Web 浏 览 器 的 标准 Rstudio 界 面 来 对 RStudio 进 行 多 人 协同 操作 。 


RStudio 可 以 从 其 官网 https://www.rstudio.com/ 免 费 下 载 安装 。 一 般 情况 下 ， 下 载 安装 桌面 版 即 可 。 安 装 完 启动 RSstudio 的 基本 界面 如 图 2-2 所 示 。 


"| 溉 "| 昌国 | 辣 | [5otoriefundion | 图 -| aas 潮 project ona - 


e] untiuedl x 严 口 | Environment Histoy 
癌 | 品 同 Soureonsawe | Q 天- 得 EHRun | Be | [#soure ~- 三 由 地 上 日 | 型 Importpataset | 到 
唔 Global Environment ~ 


Environment is empty 


与 | BZzoom | 到 bportt- 19 | 了 


Console ~/ ~ 


R version 3.2.2 (2015-08-14) -- "Fire Safety” 
Copyright (C) 2015 The R Foundation for Statistical Computing 
Platform: x86_64-w64-mingw32/x64 (64-bit) 


R is free software and comes with ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute 1t under certain conditions. 
Type "license()" or ‘licence()" for distribution details. 


R is a collaborative project with many contributors. 
Type “contributors()”for more information and 
"citation()”on how to cite R or R packages in publications. 


图 2-2 ”RStudio 启 动 界 面 


左上 方 的 窗口 是 文本 编辑 器 ， 具 有 强大 的 功能 ， 可 以 在 文本 编辑 器 写 好 脚本 ， 单 击 Run 按 钮 (或 者 利用 Ctrl + R 快 捷 键 ) 批量 运行 代码 ; 右上 方 的 窗口 包括 当前 环境 下 的 信息 、 历 史 命令 ; 左下 方 的 窗口 
是 标准 的 R 控 制 台 ; 右 下 方 的 窗口 包括 文件 路 径 、 绘 图 窗口 、 已 经 在 本 地 安装 的 包 信 息 、 帮 助 文 档 以 及 交互 绘图 时 的 图 形 浏览 界面 。 


Rattle 是 一 个 用 于 数据 挖掘 的 R 的 图 形 交 互 界 面 (GUI) ， 可 用 于 快捷 处 理 常 见 的 数据 挖掘 问题 。 从 数据 的 整理 到 模型 的 评价 ，Rattle 给 出 了 完整 的 解决 方案 。Rattle 和 R 平 台 良 好 的 交互 性 ， 又 为 用 户 使 


用 R 语 言 解决 复杂 问题 开启 了 方便 之 门 。Rattle 易 学 易 用 ， 不 要 求 很 多 的 R 语 言 基础 ， 如 今 已 被 广泛 应 用 于 数据 挖掘 实践 和 教学 之 中 。 


Rattle 初 始 界面 如 图 2-3 所 示 。 


>library (rattle) 
Rattle: A free graphical interface for data mining with R 


XXXX 4.1.0 Copyright (c) 2006-2015 Togaware Pty Ltd. 键 入 ' rattle () "去 轻 扬 、 晃 动 、 翻 滚 你 的 数据 。 
>rattle () 


re i er re 


Source: @ Spreadsheet © ARFF © ODBC © R Dataset © RDatahle © Lbrary © Corpus © Scnpt 


Flename: (EE) separator: | | pecmat | | @ Header 
目 parition 4 上 朋 四 


Target Data Type 
© nput Le) gnore Weight Calculator: | | ] 图 Auto © Categonc ©@ Numerc © OX ] 


Welcome to Rattle (rattle.togaware .com). 


Rattle is a free graphical user interface for Data Mining, developed using R. R is a free software 
environment for statistical computing and graphics. Together they provide a sophisticated 
environments for data mining, statistical analyses, and data visualisation. 


See the Help menu for extensive support in using Rattle. The book Data Mining with Rattle and R is 
available from Amazon. The Togaware Desktop Data Mining Survival Guide includes Rattle 
documentation and is available from datamining.togaware .Ca 


Rattle is licensed under the GNU General Public License, Version 2. Rattle comes with ABSOLUTELY 
NO WARRANTY. See Help -> About for details. 


Rattle Version 4.1.0. Copyright 2006-2015 Togaware Pty Ltd. 
Rattle is a registered trademark of Togaware Pty Ltd. 
Rattle was created and implemented by Graham Williams. 


图 2-3 ”Rattle 启 动 界 面 


Rattle 的 标签 栏 已 经 集成 数据 导入 、 数 据 探 索 、 数 据 检 验 、 数 据 转化 、 数 据 建 模 及 模型 评估 功能 ， 可 以 通过 鼠标 单 击 的 方式 完成 一 整套 的 数据 挖掘 工 作 ， 并 且 可 以 利用 Log 日 志 查看 每 个 操作 的 R 脚 本 实 
现 ， 借 此 来 学 习 R 语 言 的 代码 规范 及 编写 。 


2.1.4 ”R 快 速 入 门 


R 是 一 种 区 分 大 小 写 的 解释 型 语言 ， 程 序 内 置 的 函数 可 以 满足 基本 的 数据 分 析 需 求 ， 并 且 有 丰富 的 帮助 文档 帮助 新 手 快 速 上 手 。 此 外 ， 也 有 很 多 用 户 贡 献 了 高 质量 的 包 ， 极 大 地 扩展 了 R 的 功能 ， 例 如 ， 
用 来 进行 数据 处 理 的 resharp2 包 、 用 来 画图 的 ggplot2 包 和 R 与 Web 整 合 部 署 的 shiny 包 。 


1. 新 手 上 路 


可 以 在 命令 提示 符 (> ) 后 每 次 输入 一 条 命令 ， 或 者 一 次 性 执行 脚本 文件 里 的 一 组 命令 。R 语 言 是 解释 型 语言 ， 输 入 命令 后 可 以 实时 响应 ， 就 好 像 计 算 器 一 样 。 


如 果 R 监 测 到 输入 的 命令 行 未 结束 ， 就 会 给 出 一 个 提示 符 “+ ” ， 提 示 要 在 下 一 行 继续 输入 未 完 的 命令 ， 直 到 从 语法 角度 来 讲 命令 已 经 输入 完整 为 止 ， 不 然 R 会 有 “unexpected end of input' 的 错误 


提示 。 


Vv 


了 十 
+ 错误 : unexpected end of input 
1+ 


= 
ee 


2 


R 语 言 的 标准 赋值 符号 是 <-， 也 可 以 用 =。 例 如 ， 将 序列 1: 10 赋 予 对 象 3， 可 以 执行 如 下 操作 。 


>a=1:10 


此 时 ， 如 果 想 查看 对 象 3， 直 接 输入 小 写 a 即 可 ， 但 由 于 R 是 一 种 区 分 大 小 写 的 解释 型 语言 ， 此 时 如 果 输 入 大 写 A， 则 会 报错 : 


a 
]- 这 对 5 G6 8 9 10 


> 
[1 
> A 错误 : 找 不 到 对 象 'A' 


不 仅仅 针对 数据 对 象 ， 对 于 其 他 对 象 ，R 也 是 区 分 大 小 写 的。 例如 ，R 自 带 的 一 个 求 相 天 系数 的 cor 函 数 ， 如 果 我 们 错 写 为 Cor 函 数 ， 则 会 出 现 “ 没 有 "Cor "这 个 函数 ”的 错误 提示 。 


] 
Sepal.Length Sepal.Width Petal.Length Petal.Width 


) 
e 
Sepal .Length 1.0000000 -0.1175698 O8717538 0,8]79411 
Sepal .Wiqdth -0.1175698 1.0000000 -0.4284401 -0.3661259 
Petal.Length 0.8717538 -0.4284401 1.0000000 0.9628654 
Petal .Width 0.8179411 -0.3661259 0.9628654 1.0000000 
[ ) 错 


> Cor (iris[,1:4]) 错 误 : 没有 "Cor" 这 个 函数 


2. 获 得 帮助 


R 提 供 了 大 量 的 帮助 文档 ， 学 会 如 何 使 用 这 些 帮助 文 档 可 以 让 你 快速 上 手 。 如 果 想 知道 某 个 函数 或 者 数据 集 的 信息 ， 可 以 输入 一 个 问号 ”， 后 面 加 上 函数 名 。 如 果 想 查找 某 个 函数， 可 以 输入 两 个 问 
号 ? ? ， 后 面 加 上 与 此 函数 相关 的 关键 词 。 函 数 help 及 help.search 分 别 等 同 于 ”及 ”? 。 例 如 : 


?median # 等 价 于 help ("median") ,查看 中 位 数 函 数 的 帮助 文档 
??median # 等 价 于 help.serach ("median") 搜索 包含 median 的 帮助 信息 


如 果 使 用 的 是 RStudio， 也 可 以 在 Help 中 右上 角 的 搜索 框 中 输入 median， 查 看 该 浮 数 的 帮助 文档 ， 如 图 2-4 所 示 。 


Files Plots Padkages Help | Viewer a 


和 中 全 | 曾 | 吉 IQ median 四 | | 二 


R Median Value ~ | Find in Topic | 


median {stats} R Documentation 


Medlan Value 


Description 

Lompute the sample median. 
Usage 

区 已 电工 BDm LT na.rm = FALSE) 
Arguments 


an oblject for which a method has been defined, or a numenc Vector 
containing the values whose median Is to be computed. 


a logical value Indicating whether NA values should be stnpped before the 
computation proceeds. 


Detalls 


图 2-4 RStudio 帮 助 界 面 


默认 情况 下 ，help 只 能 查找 已 经 加 载 到 内 存 中 扩展 包 的 函数 和 数据 ， 如 果 想 查找 那些 未 加 载 到 内 存 扩展 包 中 的 遂 数 和 数据 ， 需 要 指定 help 函 数 的 package 参 数 中 的 具体 包 名 或 者 将 try.all.package 参 数 
设置 为 TRUE。 例 如 ， 想 查找 shiny 包 中 的 runExample 函 数 : 


> help ("runExample") 
No documentation for 'FrunExample' in specified packages and libraries: 
you could try '??runExample' 
> help ("runExample",package = "shiny") 

> help ("runExample",try.all.packages = TRUE 


~ 一 


appropos 函 数 能 找 出 所 有 名 字 中 含有 “关键 字 ” 的 函数 ， 只 在 载 入 的 包 中 搜索 。 例 如 : 


> apropos ("plot") 


[1] ". C recordedplot" "assocplot" "barplot" 
[4] "barplot.default" "biplot™ "boxplot" 
[7] "boxplot.default" "boxplot .matrix" "boxplot.stats" 
L101]. “cdplot™ "GopLlot" "fourfoldplot" 


[13] "interaction.plot" "Jag.plot" "matplot" 

[16] “monthplot" "mosaicplot" "Blot” 

[19] "plot.default" "plot.design" "plot.ecdf" 

[22] "plot.function" "plot.new" "plot.spec.coherency" 
[25] "plot.spec.phase" "plot.stepfun" "BLotatsY 

[28] "plot.window" Eee "preplot" 

[31] "qqplot” "recordPlot" "replayPlot" 

[34] "savePlot" "screeplot" "spineplot" 

[37] "sunflowerplot" "termplot" "EtsyBlet” 


大 多 数 函 数 都 已 经 有 相应 的 例子 帮助 我 们 了 解 该 函数 的 工作 原理 。 可 以 通过 example 遂 数 来 查看 它们 。 例 如 : 


> example ("median") 


median> median (1:4) # = 2.5 [even number!] 
[二 | -225 

median> median(c(1:3, 100, 1000)) # = 3 [odd, robust] 
[Li 3 


可 以 通过 data 遂 数 查看 datasets 包 中 的 数据 集 ， 如 果 要 查看 本 地 安装 包 的 所 有 数据 集 ， 可 以 用 命令 data (package=.packages (all.available=TRUE) ) 查看 。 


> data() 
> data (package = .packages (all.available = TRUE 


~ 一 
~ 一 


3. 工 作 空间 


工作 空间 (workspace) 就 是 当前 R 的 工作 环境 ， 它 储存 所 有 用 户 定义 的 对 象 (向量 、 和 矩阵 、 遂 数 、 数 据 框 、 列 表 、 模 型 、 图 形 等 ) 。 例 如 ， 通 过 以 下 代码 创建 几 个 对 象 。 


# 创建 数据 对 象 ar 了 

a <= 13510 

b <- 10:1 

# 创建 模型 对 象 fit 

fit <- lm(Sepal.Length~Sepal .Width,data=iris) 

# 创建 图 形 对 象 q、p 

Jibrary (ggplot2) 

gq <- gqplot (mpg, wt, data = mtcars) 

library (rCharts) 

p <- rPlot (Sepal.Length ~ Sepal.Width | Species, data = iris, 
type = 'point', color = 'Species') 


十 MYMMYMMYMMYMMYMMYMMYSVYV 


对 象 创建 完 以 后 ， 可 以 通过 ls 函数 查看 当前 工作 空间 中 的 对 象 。 结 果 如 下 。 


TS we™ I i mo na 


如 果 使 用 的 是 RStudio， 可 以 直接 在 右上 和 角 查 看 当前 工作 空间 的 对 象 ， 如 图 2-5 所 示 。 


int [1:10] 1 2 3456789 10 
int [1:10] 10987654321 
List of 12 

Environment 


List of 9 


图 2-5 通过 RStudio 界 面 查看 当前 工作 空间 的 对 象 


因为 对 象 是 储存 在 内 存 中 的 ， 所 以 可 以 删除 不 需要 的 对 象 及 时 释放 内 存 ， 提 高 效率 。 通 过 rm () 遂 数 移 除 一 个 或 多 个 对 象 ， 比 如 想 删除 对 象 fit， 执 行 以 下 命令 。 


ist="fit") 


Km (二 
TS () 
1] Wa we™ ed "gq" 


如 果 需 要 删除 剩 下 的 全 部 对 象 ， 可 以 利用 list=ls () 实现 。 


> rm(list=1s ()) 
> ls() 
character (0) 


当前 的 工作 目录 (working directory) 是 R 用 来 读 取 文件 和 保存 结果 的 默认 目录 ， 可 以 使 用 函数 getwd () 来 查看 当前 的 工作 目录 。 


getwd () 
] "C:/Users/Think/Documents" 


如 果 想 改变 当前 的 工作 目录 ， 可 以 使 用 setwd () 函数 或 通过 “文件 ”菜单 下 的 “改变 工作 目录 ”命令 实现 。 


4. 包 
R 语 言 的 使 用 ， 很 大 程度 上 是 借助 各 种 各 样 的 R 包 的 辅助 ， 从 某 种 程度 上 齐 ，R 包 就 是 针对 R 的 插件 ， 不 同 的 插件 满足 不 同 的 需求 ， 截 


是 R 函 数 、 数 据 、 预 编译 代码 以 一 种 定义 完善 的 格式 组 成 的 集合 。 
该 库 位 于 R 软 件 的 安装 目录 /brary 目 录 下 。 可 以 通过 函数 ,libPaths () 查看 库 所 在 的 位 置 ， 通 过 函数 


至 2016 年 5 月 18 日 ，CRAN 已 经 收录 了 各 类 包 8417 个 。 计 算 机 上 存储 包 的 目录 称 为 库 (library) ， 
library () 可 以 显示 库 中 已 安装 的 包 。 

第 一 次 安装 一 个 包 ， 使 用 命令 install.packages ("package_name","dir") 即 可 。dir 为 包 安 装 的 路 径 。 默 认 情况 下 安装 在 http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/16401/OEBPS/Text/..\library 文 件 夹 中 。 


例如 ， 要 安装 一 个 可 以 快速 读 取 大 数据 集 的 扩展 包 data.table， 只 需要 执行 install.packages ("data.table") 即 可 完成 安装 。 


> instal1.packages ("data.table") 试 开 URL” 
https://mirrors.tuna.tsinghua.edu.cn/CRAN/bin/windows/contripb/3.2/data.table 1.9.6.zip' 
Content type '‘'application/zip' length 1883523 bytes (1.8 MB) 
downloadeqd 1.8 MB 程序 包 'data.table' 打 开 成 功 ，MD5 和 检查 也 通过 下 载 的 二 进 制 程序 包 在 
C:\Users\Think\AppData\Local\Temp\Rtmpoltpbz\downloaded packages 里 


也 可 以 选择 R 的 菜单 : 程序 包 一 安装 程序 包 ， 在 弹出 的 对 话 框 中 ， 选 择 要 安装 的 包 ， 然 后 确定 。 如 果 使 用 的 是 Rstudio， 可 以 选择 菜单 Tools 一 Install Packages， 调 出 窗口 ， 包 括 在 线 安 装 和 本 地 安装 两 
种 方式 。 这 里 我 们 选择 在 线 安装 ， 只 需要 在 Packages 中 输入 包 名 后 单 击 Install 按 钮 进行 安装 即 可 ， 如 图 2-6 所 示 。 


Packages (separate multiple with space or commay: 


Install to Library: 


区 |Install dependencies 


图 2-6 ”通过 RStudio 界 面 安装 包 


包 安 装 后 ， 如 果 要 使 用 包 的 功能 。 必 须 先 把 包 加 载 到 内 存 中 (默认 情况 下 ，R 启 动 后 会 自动 加 载 基本 包 ) ， 加 载 包 命令 : library (" 包 名 ") 或 者 require (" 包 名 ") 。 也 可 以 通过 Rstudio 右 下 窗口 中 的 
Packages 加 载 包 。 默 认 情 况 下 ， 扩 展 包 是 未 加 载 到 内 存 中 的 ， 如 图 2-7 所 示 。 


| instal | @ update | 


Narme 
d3wennk 


data.table 
data,tree 


datasets 
DBI 


Deducer 


dendextend 
DEoptimh 


descr 


devtools 


直接 选中 data.table， 即 可 完成 包 的 加 载 ， 如 图 2-8 所 示 。 


htmmlwdget for interactrve Venn/Euler 
diagrams In R 
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The R Datasets Package 
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Functionality 
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Tools to Make Developing R Packages 
Easter 


图 2-7 data.table 包 未 加 载 到 内 存 
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| 


Fies | Plots | Packages | Help | viewer 


Sl install | @Y update | 


回 


回 


回 回 


Name 
di3wvennRR 


data.table 
data.tree 


datasets 
DBI 


DedUucer 


dendextend 


DEoptimk 


descr 


devtools 


QQ 


Description 

htmhwidget for Interactrwe Venn/Euler 
diagrams In R 

Fxtenstion of data,frame 

Leneral Purpose Hlerarchical Data 
Structure 

The RK Datasets Package 


R Database Interface 


A Data Analysts LUI for 
Fxtending Rs Dendrogram 
Functionality 


Differentiral Evyolution Optimiation in 
pure R 


Descriptrve Statistics 


Tools to Make Developing R Packages 
Easter 


图 2-8 ”data.table 包 已 加 载 到 内 存 


通过 find.package () 或 者 path.package () 查看 当前 环境 加 载 了 哪些 包 。 


V 


oo aaswN 


"C:/Program 
"C: /Program 
"C: /Program 
"C: /Program 
"C: /Program 
"C: /Program 
"C: /Program 


find.package() # or path.package() 
i] R/R=3,2.27) 


"C:/Program Fi 


Fil 


les/R/R-3.2.2/1library/si 


tringi" 


iles/R/R-3.2.2/library/t 


idyr" 


iles/R/R-3.2.2/library/si 


tats" 


iles/R/R-3.2.2/library/graphics" 


iles/R/R-3.2.2/library/grDevices" 


iles/R/R-3.2.2/library/ut 


S/R/R-3 


tils" 


iles/R/R-3.2.2/library/datasets" 
e .2.2/library/methods" 
"C:/PROGRA~1/R/R-32~1.2/l1ipbrary/base" 


Verslonm 


日 ,] 


] 里 用 
避 .> 山 


3 
.3.] 
.7-9 
] .1 


1] 0-2 


] 1 2 
.7 山 


入 从 | 从 | 从 | 从 人 剖 | 谷 从 从 | 内 


可 以 通过 detach () 函数 将 已 加 载 的 包 移 出 内 存 。 例 如 ， 要 将 ada 包 从 内 存 中 移 除 ， 执 行 detach ("package: ada") 或 取消 选中 RStudio 右 下 角 Packages 选 项 卡 中 的 ada 包 即 可 ， 如 图 2-9 所 示 。 


Files Pilots Packages | Help | Viewer 


Bl nstan | [on Update | 


Name Description Version 


System Library 
abind Combine Myultidimensional Arrays 


acepack acel) and avas() for selecting 
regression transformations 


ada: an R package for stochastic 
boosting 

Applies Multiclass Adaboost.Ni, 
SANINME and Bagging 


R Client forthe Lagotto Altmetrics 
Platform 


器 


回 


amap Another Nultidimensional Analhysits 
Package 


贺 


anirmation A gallery of anirnations Im statistics 
and utilities to create anlrmations 


aplpack Another Plot Pee stem.leat 


回 


贺 


图 2-9 ”将 ada 包 从 内 存 中 移出 
通过 函数 remove.packages () 将 包 从 本 机 删除 。 例 如 ， 要 从 计算 机 中 删除 data.table 包 ， 需 执行 以 下 命令 或 者 单 击 RStudio 右 下 角 Packages 选 项 卡 中 的 data.table 包 版 本 号 右边 的 又 ， 如 图 2-10 所 
> remove.packages ("data.table") 


Removing package from 'C:/Program Files/R/R-3.2.2/library' 
(as ‘lip is unspecified) 


nstan | 人 Update Le data 


Name Description 
data.table Extension of Datafrarnme 


data.tree beneral Purpose Hilerarchical Data 
Structure 


reshape Fexiblhy reshape data,. 


图 2-10 ”将 data.table 包 从 计算 机 中 删除 


2.2 ”数据 对 象 


R 拥 有 许多 用 于 存储 数据 的 对 象 类 型 ， 包 括 向 量 、 和 矩阵 、 数 组 、 数 据 框 和 列表 。 它 们 在 存储 数据 的 类 型 、 创 建 方式 、 结 构 复 杂 度 ， 以 及 用 于 定位 和 访问 其 中 个 别 元 素 的 标记 等 方面 均 有 所 不 同 。 多 样 化 的 


数据 对 象 赋予 了 R 灵 活 处 理 数据 的 能 力 。 


R 中 有 许多 数据 类 型 用 来 存储 各 种 各 样 的 数据 ， 包 括 数值 型 (numeric) 、 逻 辑 型 (logical) 、 日 期 型 (date) 、 字 符 型 (character) 、 复 数 型 (complex) 、 原 味 型 (二 进 制 形式 保存 数据 raw) 。 
此 外 ， 也 可 能 是 缺 省 值 (NA) 和 空 值 (NULL) 。 其 中 最 经 常用 到 的 4 种 类 型 是 数值 型 、 逻 辑 型、 日 期 型 和 字符 型 。 


对 象 中 存储 的 数据 类 型 可 以 用 mode () 函数 查看 。R 中 提供 了 一 系列 用 来 判断 某 个 对 象 的 数据 类 型 和 将 其 转换 为 另 一 种 数据 类 型 的 函数 ， 如 表 2-1 所 示 。 


表 2-1 判别 和 转换 数据 对 象 类 型 的 函数 
类 型 辩 别 转 换 


数值 型 (numeric ) as.numeric() 
字符 型 (character ) as.character() 
逻辑 型 (1ogical) as.logical() 
SR pe 


R 数 据 对 象 的 另 一 个 基本 属性 是 长 度 和 类 型 属性 。 可 以 用 length () 函数 读 取 对 象 的 长 度 ， 通 过 mode () 函数 读 取 对 象 的 类 型 。 


1. 向 量 的 创建 


R 语 言 最 基本 的 数据 对 象 是 向 量 (vector) ， 向 量 是 以 一 维 数组 的 方法 管理 数据 。 在 大 多 数 情 况 下 都 会 使 用 长 度 大 于 1 的 向 量 ， 可 以 在 R 中 使 用 c () 函数 (代表 合并 combine) 和 相应 的 参数 来 创建 一 个 
向 量 。 向 量 的 数据 类 型 可 以 是 字符 型 、 逻 辑 值 型 (TRUE/T、FALSE/F) 、 数 值 型 和 复数 型 。 一 个 向 量 的 长 度 是 它 含有 元 素 的 数量 ， 可 以 用 length () 函数 来 获取 。 接 下 来 ， 利 用 几 个 小 例子 帮助 大 家 理解 。 


> (w<-c(1,3,4,5,6,7)) # 创 建 数值 型 向 量 
T1344 .567 

> length (w) # 查 看 向 量 的 长 度 

[1] 6 

> mode (w) # 查 看 向 量 的 数据 类 型 

[1] "numeric 

> (wl<-c(" 张 三 "," 李 四 "," 王 五 ")) 。 坦 创 建 字符 型 向 量 

[1] " 张 三 " 李 四 " m 王 五 m 

> length (wl1) # 查 看 向 量 的 长 度 

[1] 3 

> mode (wl1) # 查 看 向 量 的 数据 类 型 

[1] "character" 

> (w2<-c(T,F,T)) # 创 建 逻 辑 型 向 量 

[1] TRUE FALSE TRUE 

no) # 查 看 向 量 的 长 度 

> mode (w2) # 查 看 向 量 的 数据 类 型 

[1] "logical" 


一 个 向 量 的 所 有 元 素 都 必须 属于 相同 的 模式 。 如 果 不 是 ，R 将 强制 执行 类 型 转换 。 例 如 : 


> w3 <- c(w,w2) # 数值 型 + 雇 辑 型 = 数值 型 
> w3 

[ 工 414134567101 

> mode (w3) 

[1] "numeric" 

> w4<-c (w,w1) # 数值 型 + 字符 型 = 字符 型 
> w4 
[1] WT 3" A sn 6 MA " 张 三 " " 李 四 " "于 五 " 
> mode (w4) 

[1] "character" 

> w5<-c (wl,w2) ”# 字符 型 + 逻辑 型 = 字符 型 

> W5 
[1] " 张 三 " " 李 四 " nm 王 五 m "TRUE" "FALSE™ “TRUE" 
> mode (w5) 

[1] "character" 


从 以 上 例子 可 知 ， 当 数值 型 与 逻辑 型 向 量 合并 时 ，R 会 将 逻辑 型 转化 为 数值 型 ，TRUE 转 换 成 1，FALSE 转 换 成 0， 此 时 的 向 量 是 数值 型 向 量 ， 当 数值 型 或 逻辑 值 与 字符 型 合并 时 ，R 会 将 其 值 强制 转换 成 
字符 类 型 (数字 和 人 逻辑 值 元 素 都 加 上 双 引 号 ) ， 变 成 字符 型 向 量 。 


2. 向 量 的 运算 


因为 R 语 言 是 矢量 化 的 语言 ， 所 以 其 最 强大 的 方面 之 一 就 是 函数 的 向 量化 。 这 意味 着 操作 会 自动 应 用 于 向 量 的 每 一 个 元 素 ， 而 不 需要 人 遍历 向 量 的 每 个 元 素 。 例 如 ， 创 建 一 个 向 量 w， 元 素 由 1~ 10 的 序列 
组 成 ， 要 对 向 量 w 中 的 每 个 元 素 进行 开 方 根 ， 只 需要 进行 如 下 操作 : 


(w<-seq (1:10)) 

1] 1 2 3 4 5 6 7 8 910 

(x<-round (sgqrt (w) , 3)) 

] 1.000 1.414 1.732 2.000 2.236 2.449 2.646 2.828 3.000 3.162 


sqrt 函 数 直接 作用 于 w 中 的 每 个 元 素 进行 开 方 根 ， 不 需要 通过 对 w 中 的 每 个 元 素 进行 循环 的 方式 实现 。 


也 可 以 利用 R 的 这 个 特性 进行 向 量 的 四 则 运算 。 


> rm(list=1s ()) 

> (wl<-c(2,3,4)) 

[1] 全 :3.4 

> (w2<-c(3.1,4.2,5.3)) 
[1] 3.] 

> 

人 


(Ww<—wl+w2) 
| ‘Sal 2 093 


向 量 w1 和 w2 中 相同 位 置 的 元 素 会 进行 相 加 。 例 如 ，w1 的 第 一 个 元 素 是 2，w2 的 第 一 个 元 素 是 3.1， 相 加 后 ，w 的 第 一 个 元 素 就 是 2 + 3.1 = 5.1。 


如 果 两 个 向 量 的 长 度 不 同 ，R 将 利用 循环 规则 ， 该 规则 重复 较 短 的 向 量 元 素 ， 直 到 得 到 的 向 量 长 度 与 较 长 的 向 量 的 长 度 相同 。 


例 一 
rm(list=1s ()) 
(wl<-c (2, 4, 6,8)) 
[|] 2468 

(w2<-c (10,12)) 

| 210. 12 
(w<—wl+w2) 

] 12 16 16 20 
例 二 
rm(list=1s ()) 
(wl<-c (2,4,6,8)) 
[1] 2468 

> (w2<-c(10,12,14)) 
[1] 10 12 14 

> (w<-wl+w2) 

[1 12 16.20 18 
Warning message: 


Im Wl + W2 : 长 的 对 象 长 度 不 是 短 的 对 象 长 度 的 整 倍数 


VV 二 VV 下 VV 本 


在 例 一 中 ， 因 为 w1 的 长 度 是 w2 的 两 售 ， 所 以 w2 先 补 长 为 c (10，12，10，12) 再 与 w1 求 和 ; 在 例 二 中 ， 由 于 w1 的 长 度 不 是 w2 的 整 倍数 ， 不 会 出 错 但 是 会 有 和 警告 信息 ， 所 以 w2 会 补 长 为 
(10，12，14，10) 再 与 w1 求 和 。 


3. 生 成 数列 


冒号 运算 符 (: ) 会 生成 增 量 为 1 或 者 -1 的 数列 。 如 果 想 生成 1~ 10， 增 量 为 1 的 等 差 数 列 ， 或 者 是 10~ 1， 增 量 为 -1 的 等 差 数 列 ， 执 行 以 下 代码 即 可 。 


> 1:10 
[1] 1 2 3 4 5 6 7 8 910 
10.1 


[1] 10 9 8 76 54 3 21 


对 于 增 量 不 为 1 的 数列 ， 可 以 使 用 seq 国 数 。seq 函 数 基本 形式 如 下 : 


seq(from = 1，to = 1, by = ((to - from)/(length.out - 1)), 
length.out = NULL, along.with = NULL, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/...) 


seq 函 数 的 主要 参数 如 表 2-2 所 示 。 


表 2-2 seq 函 数 的 主要 参数 


from 等 差 数列 的 首 项 数据 ， 默 认为 1 等 差 的 数值 
则 等 差 数 列 的 尾 项 数据 ， 默 认为 1 产生 向 量 的 长 度 


只 给 出 首 项 和 尾 项 数据 ，by 自 动 匹 配 为 1 或 -1。 


> seq(1,9) 
[1] 123456789 
> seq(1,-9) 
[1] 1 0 =1 =2 =3 =4 =5 =6 -7 -8 -9 


给 出 首 项 和 尾 项 数据 以 及 长 度 ， 会 自动 计算 等 差 的 数值 。 


> seq(1l,-9,1ength.out=5) 
| 


下 二 0 40 63350 


上 例 中 ， 因 为 首 项 是 1， 尾 项 是 -9， 向 量 长 度 是 ?2， 所 以 等 差 的 数值 by= (-9-1) / (5-1) =-2.5。 


给 出 首 项 和 尾 项 数据 以 及 等 差 的 数值 ， 会 自动 计算 长 度 。 


> seq(1,-9,by=-2) 
Li] 本 二 一 二 二 9 


给 出 首 项 和 等 差 的 数值 以 及 长 度 ， 会 自动 计算 尾 项 。 


> Sedq(1vby=2, Length .out=10) 
[tl 1 3 3 7 G1Ll 13 15.17 19 


rep () 是 重复 函数 ， 它 可 以 将 基 一 向 量 重复 若干 次 。 其 基本 形式 是 rep (x，...) 。 其 中 x 是 预 重复 的 序列 ， 可 以 是 任意 数据 类 型 的 向 量 或 数值 。 


ach=2 


> rep(1:4,each=2) 
站 2 -2 3.3 浊 码 


与 Sedq 国 数 一 样 ， 也 可 以 通过 参数 length.out (可 简写 为 len) 设置 重复 数列 的 长 度 。 


> tep(1:4，times = 2, lenth.out = 6) 
[1] 1 23412 


rep (1: 4，times=2) 重复 数列 的 长 度 是 8， 但 是 因为 参数 length.out 限 制 了 长 度 是 6， 所 以 输出 结果 是 1 23 41 2。 


> rep(l1:4, times = 2, length.out = 10) 
[Li L234 L234 2 


可 见 ， 如 果 设 置 的 长 度 大 于 数列 长 度 (10 > 8) ， 则 会 以 循环 补 齐 的 方式 补 全 。 


此 外 ， 还 有 letters 和 LETTERS 国 数 ， 可 以 生成 26 个 英文 小 写字 母 和 大 写字 母 。 


> letters 

[1 “a “Eb cc "d" "e g" "h™" "i ] Ko Mm SN OY MOV A "EE S Ev My MR MR VY 
> LETTERS 

[11]. A B C D FE 民 G H J K L NM 一 ”NO P (@) R 3 里 U V W X 时 2 
4. 向 量 索引 


通常 ， 只 需要 访问 向 量 中 的 部 分 或 个 别 元 素 ， 可 以 通过 在 向 量 名 后 的 方 括号 [中 加 入 向 量 索引 来 实现 。 
* 根据 元 素 在 向 量 中 的 位 置 选 出 元 素 ， 它 的 初始 位 置 是 1 (而 不 像 其 他 茶 些 语言 一 样 是 0) 。 
“索引 前 加 负 号 〈-) ， 排 除 向 量 中 对 应 位 置 的 元 素 ， 返 回 其 他 位 置 的 元 素 。 

` 使 用 向 量 索引 来 选择 多 个 元 素 值 。 

` 使 用 逻辑 向 量 根据 条 件 来 选择 元 素 。 

` 使 用 表达 式 选择 元 素 。 


以 下 三 种 索引 方式 都 将 返回 相同 的 值 。 


> set.seed(1234) 

> x <- rnorm(5) 

> # 以 下 三 种 方法 返回 相同 的 值 : 

> set.seed(1234) 

> x <- rnorm(5) 

> x[c(1,3,5)] 

[1] -1.2070657 1.08 12 0.4291247 

> [CG(=27=)] 

[1] -1.2070657 1.08 12 0.4291247 

> x[c (TRUE, FALSE, TRUE, FALSE, TRUE) ] 

[1] 0 1.0844412 0.4291247 

> x[c(1,-2)] 0 会 抛 出 一 个 错误 
Error in x[c(1，-2)] : 只 有 负 下 标 里 才能 有 堆 


假如 需要 提取 x 中 大 于 0 的 元 素 ， 只 需要 在 中 括号 中 增加 表达 式 x > 0 即 可 。 背 后 原理 就 是 x > 0 得 到 一 个 逻辑 向 量 ， 然 后 返回 逻辑 值 为 TRUE 的 元 素 。 


> x>0 

[1] FALSE TRUE TRUE FALSE TRUE 
> x[x>0] 

[1] 0.2774292 1.0844412 0.4291247 


which 遂 数 将 返回 逻辑 向 量 中 为 TRUE 的 位 置 。 例 如 ， 找 出 向 量 v 中 大 于 5 的 元 素 位 置 。 


> set.seed(123) 

> Vv <- Sample(1:1075) 
>yv 

[1] 384756 

> which (v>5) 

[ 计 ] 这 “本 


利用 sample 函 数 对 序列 1~10 进 行 无 放 回 随 机 抽取 5 个 ， 得 到 向 量 v 为 c (3，8，4，7，6) ， 因 此 大 于 5 返回 的 位 置 是 2，4，5。 


可 以 利用 水 数 which.min 和 which.max 查 找 向 量 中 最 大 值 和 最 小 值 的 下 标 。 


> which.min  (v) 
[中 | 于 
> which.max(V) 
[1] 2 


2.2.2 ”矩阵 与 数组 


利用 和 矩 阵 matrix 可 以 描述 二 维 数据 ， 与 向 量 相似 ， 其 内 部 元 素 可 以 是 实数 、 复 数 、 字 符 、 逻 辑 型 数据 。 和 矩阵 matrix 使 用 两 个 下 标 来 访问 元 素 ，A[i，j] 表 示 和 矩阵 A 第 行 、 第 j 列 的 元 素 。 
多 维 数组 array 可 以 描述 多 维 数据 。array 有 一 个 特征 属性 叫 维 数 向 量 (dim 属 性 ) ， 它 的 长 度 是 多 维 数 组 的 维 数 ，dim 内 的 元 素 则 是 对 应 维度 的 长 度 。 矩 阵 是 数组 的 特殊 情况 ， 它 具有 两 个 维度 。 


在 R 中 ， 可 以 使 用 matrix 函 数 并 以 向 量 形式 输入 矩阵 中 的 全 部 元 素 ， 使 用 ncol 和 nrow 可 设置 矩阵 的 行 数 和 列 数 ， 从 而 创建 一 个 矩阵 。 


> (w<-seq(1:10)) 


[1 -3 5 6 7 B910 
> (a<-matrix (w,nrow=5,ncol=2)) 
[jy1] [【;,2] 
[1,] 1 6 
[2,] 2 7 
[3, 3 8 
[4,] 4 9 
[5xd 10 


先 创建 一 个 1~10 数 列 的 向 量 w， 然 后 利用 matrix 冰 数 将 和 矩 阵 的 行 数 设 置 为 5;， 列 数 设置 为 2， 得 到 和 矩 阵 a。 注 意 ， 和 矩 阵 a 的 数据 是 按照 列 填充 的 ， 而 在 实际 工作 中 ， 数 据 可 能 更 多 地 是 按照 行 填充 ， 这 时 只 
需要 将 参数 byrow 设 置 为 TRUE 即 可 。 


> (a<-matrix(w,nrow=5,ncol=2,byrow=T) )  # 按 行 填 充 
[1] [;2] 

[1,] 1 2 

[2，] lB: 4 

[3,] 3 6 

[471 7 8 

[Sd] 9 10 


给 矩阵 的 行列 命名 有 助 于 提高 数据 的 可 读 性 ， 可 通过 参数 dimnames 实 现 。 


> (a<-matrix(wrnrow=5yncol=27 DYyrow=T， 


十 qimnames=]1ist (Paste0 ("r",1:5),paste0 ("1",1:2)))) 
11 12 

¥] 1 2 

2 3 

r3 5 6 

r4 7 8 

ry 9 .10 


# 给 行列 设置 名 称 


函数 cbind () 把 其 自 变量 横向 拼 成 一 个 大 和 矩阵， 可 以 想象 为 水 平地 将 和 矩阵 拼 在 一 起 ，rbind () 把 其 自 变量 纵向 拼 成 一 个 大 和 矩阵， 可 以 将 其 想象 为 垂直 地 将 和 矩阵 拼 在 一 起 。 


当 函 数 cbind () 的 自 变量 是 矩阵 或 看 作 列 向 量 的 向 量 时 ， 
则 循环 不 足 后 合并 。 例 如 : 


> (xl<-rbind(c(1,2),c(3,4))) # 创建 向 量 xl 


变量 的 行 数 应 该 相等 。 当 rbind () 的 


[yz2] 

四 1 2 

2 3 4 

> (x2<-10+x1) # 创建 向 量 x2 
[,1] [2] 

[本 11 1 

[2，] 13 14 

> (x3<-cbind (x1, x2)) # 将 向 量 X1 和 X2 水 平 ( 列 ) 合并 
[zl] [23 [人 

[1,] ] DT 

[2,] 3 4 13 14 

> (x4<-rbind (x1,x2)) # 将 向 量 X1 和 X2 重 直 ( 行 ) 合并 
[,1] [i 2 

[1,] J 2 

[2，] 3 4 

[3，] 工 ] 2 

[4,] 13 4 

> cbind(1,x1) # 当 1 长 度 小 于 Xl 时， 会 先 自动 补 全 为 cC(1,1) ， 再 与 xX1 进 行列 合并 
[,1 [,2] [3] 

[1, 1 2 

[2 3 4 


通过 函数 as.vector (A) 可 以 将 和 矩阵 转化 为 向 量 。 例 如 : 


> (A<-matrix (1:6,nrow=2)) 
Lz] ly21. [31 


[1,] i .| 与 
[2，] 2 4 6 
> as.vector (A) 

[让] 本 区 汐 < 


> (A <- matrix(1:16,4,4)) 
[,1] [,2] [,3] [,4] 
[1,] 1 5 9 13 
[2，] 2 6 10 14 
[7 CE; 7 1] J 
[4,] 4 8 12 16 
> colSums (A) ”# 等 价 于 apply (A,2,sum) 


> colMeans (A) # 等 价 于 apply (A,2,mean) 
[1 :2535 65 1093 14.5 
> rowSums (A) # 等 价 于 apply (A,1,sum) 
[1] 28 32 36 40 
> rowMeans (A) # 等 价 于 apply (A,1,mean,) 
[i 区 3 9 10 


is = 看 二 | 
人 冬 星 征 


和 矩阵 或 看 作 行 向 量 的 向 量 时 ， 自 变量 的 列 数 应 该 相等 。 如 果 参 与 合并 的 自 


和 矩阵 A 第 一 列 的 元 素 是 1、2、3、4， 故 第 一 列 的 和 是 1+ 2+ 3+4= 10， 第 一 列 的 平均 值 是 (1+ 2+3+4) /4= 2.5。 


数组 是 和 矩阵 的 扩展 ， 它 把 数据 的 维度 扩展 到 两 个 以 上 。 这 意味 着 数组 中 的 元 素 需 


array () 方便 地 创建 数组 。 


> (w<-array (1:30,dim=c (3,5,2))) 


了 


[j1] [2 [,3] [,4] 5] 
[1,] 1 4 7 10 13 
[2,] 2 5 8 11 14 
[3，] 3 6 9 2 15 
r 六 2 

[TI] [,2] [,3] [,4] [【,3] 
[1,] 6 19 22 25 28 
[2,] 17 20 23 26 29 
[3,] 18 21 24 27 30 


上 面 表示 建立 一 个 三 维 数据 的 数组 ， 其 维度 是 3x 5x2。 在 结果 中 会 依次 展示 2 个 3 行 5 列 的 矩阵。 


2.2.3 ”列表 和 数据 框 


2 
之 


量 比 其 


恋 量 乱 
父 量 入， 


两 个 以 上 的 索引 。 除 此 之 外 ， 数 组 与 矩阵 类 似 ， 可 以 使 用 相同 的 方法 。 与 函数 matrix () 类 似 ， 可 以 通过 函数 


列表 list 和 数据 框 data.frame 也 是 一 个 二 维 数据 ， 其 中 向 量 vector、 多 维 数组 array 以 及 和 矩 阵 matrix 存 储 的 元 素 ， 其 数据 类 型 是 唯一 的 。 列 表 和 数据 框 内 每 列 元 素 的 数据 类 型 可 以 不 同 ， 列 表 内 的 长 度 也 
可 以 不 同 。 一 般 在 使 用 R 语 言 进行 数据 分 析 和 挖掘 的 过 程 中 ， 向 量 和 数据 框 的 使 用 频率 是 最 高 的 ， 列 表 则 在 存储 较 复杂 的 数据 时 作为 数据 对 象 类 型 。 


1. 列 表 


列表 可 以 使 用 list 函 数 创 建 ， 函 数 的 每 一 个 参数 变 成 列表 的 元 素 。 


> user.list<-list (user.id=34453, 


> user.1list 
Suser.id 


( 


user.name=" 张 三 "， 、 
user.games=c(' 地 铁 跑 酷 !，!' 神 庙 逃 亡 27，" 水 果 仆 者 !， "苍穹 变 ') ) 


[| 


34453 


Suser .name 


[1] 


[| 


对 象 user.list 由 三 个 成 分 组 成 : 第 一 个 是 名 称 为 user.id 的 数值 ， 第 二 个 是 名 称 为 user.name 的 字符 串 ， 第 三 个 是 名 称 为 user.games 的 字符 型 向 量 。 


" 张 三 " 


Suser .games 


"地 铁 跑 酷 " 


" 神 庙 逃亡 2" "水 果 妨 者" 


[1 sel ic 
2 


可 以 使 用 length 函 数 来 检查 列表 成 分 的 个 数 。 


> | 
[| 


n 
3 


ength (user.1ist) # 检 查 列表 成 分 个 数 


可 以 通过 函数 unlist () 把 列表 中 的 所 有 元 素 转换 为 向 量 元 素 ， 转 换 后 向 量 元 素 的 个 数 和 列表 中 所 有 数据 对 象 的 个 数 相同 。 


> unlist (user.1ist) 


# 转 换 成 向 量 元 素 


user.nameuser.gamesl user.games2 user.games3 user.games4 


user.id 
"T34453™ 


2. 数 据 框 


数据 框 是 仅 次 于 向 量 的 最 重要 的 数据 对 象 类 型 。 
似 于 list， 数 据 框 也 可 以 由 不 同 的 向 量 作为 列 来 合成 ， 并 且 不 同 列 之 间 的 元 素 可 以 是 不 同 的 数据 类 型 。 


" 张 三 " 


"地 铁 跑 酷 " " 神 庙 逃亡 2" "水 果 疏 者 " T 检 客 变 " 


的 一 列 代表 某 一 变量 属性 的 所 有 取 值 ， 用 一 行 代表 某 一 个 样本 数据 。 


data.frame () 函数 可 以 直接 将 多 个 向 量 建立 为 


个 数据 框 ， 并 为 列 设置 名 称 。 


在 R 语 言 中 ， 很 多 数据 分 析 算 法 函数 的 输入 对 象 都 是 数据 框 对 象 。 而 且 ， 在 使 用 读 取 excelWcswtxt 等 格式 数据 集 的 函数 时 ， 也 是 以 数据 框 对 象 输入 的 。 类 
但 是 数据 框 并 没有 list 那 么 灵活 ， 数 据 框 内 每 个 列 的 长 度 必 须 相 同 。 在 实际 生产 环境 中 ， 通 常会 用 数据 杠 


> my.dataset<-data.frame (usSseridq=c("S001"，"S002"7 "S003","S004", "S005"), 
+ gamename=c(' 地 铁 跑 酪 '，' 神 庙 逃 亡 21，' 水 果 丸 者 '，' 水 果 妨 者 '，' 机 战 王 ')， 
十 Iamount=c (100, 50, 30, 60, 70)) 
> my.dataset 
userid gamename iamount 
1 S001 地 铁 跑 酷 100 
2 S002 和 神 庙 逃 亡 2 50 
3 ”S003 水 果 忍 者 30 
4 S004 水 果 妨 者 60 
5 S005 机 战 王 70 


我 们 创建 了 一 个 名 为 my.dataset 的 数据 框 ， 包 含 三 列 数据 ， 其 中 第 一 列 和 第 二 列 是 字符 型 的 数据 类 型 ， 第 三 列 是 数值 型 的 数据 对 象 。 
可 以 通过 names 函 数 查 看 数据 框 的 变量 名 称 。 


> names (my.dataset) 
[1] "userid" "gamename" "iamount" 


也 可 以 通过 colnames 函 数 查看 变量 名 称 ，rownames 函 数 查看 记录 名 称 。 以 mtcars 数 据 集 为 例 : 


> head (mtcars) # 查 看 前 六 行 数据 


mpg cyl disp hp drat wt qsec vs am gear carb 
Mazda RX4 21,0 6 160 1103.90 2.620 16.46 0 1 4 4 
Mazda RX4 Wag 21.0 6 160110 3.90 2.875 17.02 0 1 4 4 
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 册 
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 于 
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 和 
Valiant 18.1 6 225 105 2.763.460 20.22 1 0 3 1 
> colnames (mtcars) # 查看 变量 名 称 

[ "mpg™" "Cyl" "disp" "np" "drat™ mE "gqsec"™ vs 1 vam" "gear™ 
[1 "carb" 
> rownames (mtcars)  # 查看 记录 名 称 

[1] "Mazda RX4" "Mazda RX4 Wag" "Datsun 710" 

[4] "Hornet 4 Drive" "Hornet Sportabout" "Valiant" 

[7] "Duster 360" "Merc 240D" "Merc 230" 
[L101 “Mesre 280" "Merc 280C" "Merc 450SE" 
[13] "Merc 450SL" "Merc 450SLC" "Cadillac Fleetwood" 
[16] "Lincoln Continental™" "Chrysler Imperial" "Eiat 128" 
[19] "Honda Civic" "Toyota Corolla" "Toyota Corona" 
[22] "Dodge Challenger" "AMC Javelin" "Camaro 228" 
[25] "Pontiac Firebird" "Fiat X1L-9" "Porsche 914-2" 
[28] "Lotus Europa" "Ford Pantera L" "Ferrari Dinon 
[31] "Maserati Bora" "Volvo 142E" 


names 函 数 也 可 以 直接 修改 变量 名 称 。 例 如 ， 将 my.dataset 中 的 用 户 id 变量 名 称 改 成 vopenid， 只 需 执行 以 下 代码 : 


taset) 
"gamename" "iamount" 
taset) [1] <- "vopenigd" 
taset) 
"gamename" "iamount" 


names (my .da 
L] "userigd" 

names (my .da 
names (my .da 
1] "vopenid" 


> 
[] 

> 
> 
[] 


也 可 以 利用 reshape 包 中 的 rename 函 数 批量 修改 变量 名 。 


> library (reshape) 


> newdata <- rename (my.dataset,c("vopenigd" = "用 户 ID", 

+ "gamename" = "游戏 名 称 ", "iamount" = "付费 金额 ") ) 
> names (newdata) 

[ 池 ] "用 户 ID" "游戏 名 称 " "付费 金额 " 


数据 框 的 索引 和 和 矩阵 类 似 ， 由 于 都 是 二 维 数据 ， 所 以 它 也 有 两 个 维度 的 下 标 ， 同 时 数据 框 的 列 名 称 也 可 以 方便 地 索引 数据 框 的 列 数据 。 


例如 ， 提 取 my.dataset 数 据 集中 的 第 二 列 ， 有 以 下 几 种 方式 实现 : 


y.dataset$gamename 

也 铁 跑 酷 神 庙 逃 亡 2 水 果 妨 者 水 果 妨 者 机 战 王 
Ss: 地 铁 跑 酷 机 战 王 神 庙 逃亡 2 水 果 丸 者 
.dataset [["gamename"|]] 
也 铁 跑 酷 神 庙 逃 亡 2 水 果 忍 者 水 果 忍 者 机 战 王 
Ss: 地 铁 跑 酷 机 战 王 神 庙 逃亡 2 水 果 丸 者 
qataset [ [21]] 
也 铁 跑 酷 神 庙 逃 亡 2 水 果 丸 者 水 果 忍 者 机 战 王 
Ss: 地 铁 跑 酷 机 战 王 神 庙 逃亡 2 水 果 丸 者 
.dataset [,2] 
也 铁 跑 酷 神 庙 逃亡 2 水 果 忍 者 水 果 忍 者 机 战 王 
Ss: 地 铁 跑 酷 机 战 王 神 庙 逃亡 2 水 果 丸 者 


如 果 想 提取 前 三 行 、 前 两 列 的 数据 ， 可 以 执行 以 下 代码 : 


> my.dataset [1:3,1:2] 
vopenid gamename 

1 S001 ”地铁 跑 酷 

2 S002 和 神 庙 逃 亡 2 

3 S003 ”水果 忍者 

> my.dataset[1:3,c("vopenid","gamename")|] 
vopenid gamename 

1 S001 ”地铁 跑 酷 

2 S002 和 神 庙 逃 亡 2 

3 S003 ”水果 忍者 


2.3 数据 导 


数据 分 析 师 可 能 经 常会 遇 到 来 自 不 同 数据 源 和 数据 格式 的 数据 。 例 如 ，cswtxt 的 文本 文件 数据 、 人 存储 在 数据 库 中 的 销售 数据 ， 或 者 需要 从 网 络 上 怜 取 数 据 来 丰富 你 的 数据 源 、 从 Hive 中 直接 读 取 数 据 
等 。 下 面 我 们 来 学 习 如 何 将 不 同 数据 源 的 数据 导入 R 工 具 中 。 


2.3.1 利用 Rstudio 导 入 


R 暂 时 没有 很 好 用 的 可 视 化 数据 导入 工具 ， 所 以 需要 使 用 命令 来 导入 /导出 数据 。 但 可 以 使 用 Rstudio 编 辑 器 的 简单 数据 导入 功能 ， 如 图 2-11 所 示 。 


Environment History 


PB] Untitledl x 
| 避 | 上 回 SourceonSawe QQ /i- ] [- 坟 Run | [省 | [ 溃 Source ~ 三 | ImportDataset” 才 


1 Globs From Local File.,. 
From Web URL... 


Environment is empty 


Files Pilots Pacdages Help Viewer 


Gl Install @ Update 
| Name Description Version 


1:1 ffop Level) = System Library 
abind Combine Multidimensional Arrays 


Console ~/ 学 | 
You are welcome to redistribute it under certain conditions. | acepack 
Type “license()” or ‘licence()" for distribution detalls . | 


ace0 and avasl0 for selecting regression 
transformations 


图 2-11 利用 RStudio 导 入 csv/txt 及 网 络 数据 


假如 在 C: \Users\Think\Documents 文 件 夹 下 有 一 个 文件 : iris.csv。 在 RStudio 右 上 角 窗 口 的 Import Dataset 下 拉 列 表 中 选择 From Local Files， 选 中 iris.csv 文 件 后 单 击 打开 ， 得 到 如 图 2-12 所 示 的 窗 
口 。 


日 人 


窗口 左 侧 的 Name 表 示 导 入 数据 时 要 保存 的 数据 对 象 名 称 ，RStuido 会 默认 获取 与 导入 文件 名 称 相同 的 对 象 名 称 ， 当 然 ， 也 可 以 手动 修改 成 自己 需要 的 名 称 。 其 他 选项 包括 编码 类 型 、 是 否 需 要 标题 、 分 
隔 符 、 缺 失 值 的 处 理 、 字 符 串 是 否 转换 成 因子 等 参数 设置 。 窗 口 右上 角 是 导入 的 数据 源 预 览 ， 右 下 角 是 数据 导入 R 中 的 预览 。 参 数 调整 完成 后 ， 单 击 Import 按 钮 将 数据 导入 R 中 。 


图 Strings as factors 


区 和 网 网 网 网 网 了 和 网 网 罗网 网 网 


4.9 
4.7 
4.6 
5 ,3 
5.4 
4.6 
5 ,3 
4.4 
4.9 
5.4 
4.8 
4.8 
4.3 
5.8 
5.7 
4 


Sepal.Length 


5.1 


3 EEEEEOEEEEEE 
NOWmmpOoOAONARONNYV 


EE: 


:0.2,"Setosa” 
.2,"Setosa” 
.2,"Setosa” 
.2,"Setosa”" 
"Setosa” 
.4,"Setosa” 
.3,"Setosa” 
:" Setosa”" 
2,"Setosa”" 


ONpPWHOOOONOONOO 


al.width 


OOoOpNPFOPAPOMNPENOM 


图 2-12 ”利用 RStudio 导 入 csv/txt 及 网 络 数据 


Flease enter the URL to 1Import data trom: 


httip: i wm. stirmr ao. com! sal arv data, csw 


h”,"Sepal.Width"”,"Petal.Length"”,"Petal.Widtl|a 


rt 


oooooooooooooooal 
pweNNNN 


Justin Rao 的 网 站 上 有 份 从 2002 年 到 2008 年 间 的 NBA 工 资 数据 : http://www.justinmrao.com/salary data.csv。 可 以 在 RStudio 右 上 角 窗 口 的 Import Dataset 下 拉 列 表 中 选择 From Web URL， 在 打 
开 的 窗口 中 输入 以 上 的 网 址 后 单 击 OK 按 钮 ， 即 可 完成 网 络 数 据 的 下 载 ， 如 图 2-13 所 示 。 


图 2-13 ”输入 网 络 地 址 


数据 下 载 完 成 会 出 现 与 从 本 地 导入 csv 文 件 相 同 的 窗口 ， 单 击 Import 按 钮 ， 即 可 把 数据 导入 R 工 具 中 ， 如 图 2-14 所 示 。 


Name Input File 


team,year ,pl1ayer ,COontract_years_remaining,contract_thru a 


"BOstOn Celtics”, "2002-03”， "Bremer ，].R.“ ,1 "2002-03”，”， 
"Cleveland Cavaliers”,"2003-04","Bremer, J.R.”",1,"2003-1 
"Char lotte Hornets”,"2001-02”,"Brown, P.J].”",7,"2002-03”" 
Encoding [Automatic 7 "New Orleans Hornets","2002-03","Brown, P.J].",7,"2002-0. 
"New Orleans Hornets”,"2003-04","Brown, P.J].",4,"2006-0. 


Heading ”图 Yes 四 No "New Orleans Hornets"”,"2004-05","Brown, P.J.",4,"2006-0.. 
"New Orleans Hornets”,"2005-06"”,"Brown, P.J].",4,"2006-0." 


Row names [Automatic | "Chicago Bulls"”,"2006-07","Brown, P.J].",4,"2006-07","F-t 
“Toronto Raptors"”,"2007-08","Giddens, J.R.",1,"2007-08" 


"BOston Celtics","2008-09","Giddens, J.R.",5,"2012-13"”",' 

Separator [Gomme — MM)! Chicago Bu115* , 2001-02" , “Guyton, A. 3", 2,"2001-02*，" 
"GOolden State Warriors”,"2001-02","Henderson, Cedric E.' 

"Cleveland Cavaliers”,"2008-09","Hickson, J.J].",S5,"2012- 
Decimal "Toronto Raptors”,"2006-07","TuCker ，P.J.",1,"2006-07" 
“"DK1ahoma City Thunder™”,"2008-09","White, D.J].",5,"2012- 

"Houston ROCKets”, "2007-08” "Brooks ，Aaron” ,5 ，"2011-12” 


player 
Boston Celtics Bremer, J.R. 
贺 Strings as factors Cleveland Cavaliers Bremer, J.R. 
Charlotte Hornets Brown, P.]. 
New Orleans Hornets Brown, P.]. 
New Orleans Hornets Brown, P.]. 
New Orleans Hornets Brown, P.]. 
New Orleans Hornets Brown, P.]. 
Chicago Bullils Brown, P.]. 
Toronto Raptors Giddens, J.R. 
Boston Celtics Giddens, J.R. 
Chicago Bulls GUyton, A.]. 
GoOlden State Warriors Henderson, Cedric E. 
Cleveland Cavaliers Hickson, J.]. 
Toronto Raptors Tucker , P.]. 
DK1ahoma City Thunder White, D.]. 
Houston Rockets Brooks, Aaron 


图 2-14 ”数据 设置 窗口 


2.3.2 ”文本 文件 的 导入 


有 众多 的 格式 和 文本 文件 标准 可 用 于 存储 数据 。 用 于 存储 数据 的 通用 格式 为 分 隔 符 值 ( 即 CSV 或 制 表 符 分 隔 文 件 ) 、 可 扩展 标记 语言 (XML) 、JavaScript 对 象 表示 法 (JSON) ， 其中， 最 常用 于 存储 
数据 的 通用 格式 为 分 隔 符 值 ( 即 CSV 或 制 表 符 分 隔 文 件 ) 。 


假如 当前 目录 下 有 两 个 文件 : iris.txt 和 liris.csv。 可 以 利用 read.table 函 数 将 这 两 份 数 据 读 入 R 工 具 中 。 


> import.txt <- read.table ("iris.txt",header = TRUE) # 读 入 iris.txt 文 件 
> head (import .txt) 
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 


1 5.1 .5 2 setosa 
之 4.9 3 4 0.2 setosa 
3 4.7 22 3 0.2 setosa 
4 4.6 3 与 0.2 setosa 
与 5 3 4 0.2 setosa 
6 5.4 359 7 0.4 setosa 


read.table 函 数 的 第 一 个 参数 file 是 导入 目录 中 的 数据 ， 如 果 数 据 不 在 当前 目录 中 ， 则 需要 增加 完整 路 径 ; 参数 header 用 来 设置 导入 的 数据 是 否 有 变量 名 称 ， 默 认 是 FALSE; 参数 sep 默 认 以 一 个 或 多 个 
空格 、 制 表 符 、 换 行 或 回 车 为 字段 分 隔 符 ， 因 为 csv 文 件 以 逗号 作为 字段 分 隅 符 ， 故 如 果 导 入 csv 文 件 ， 需 要 将 参数 sep 设 置 为 ”，”。 
> import.csv <- readq.table("iris.csv"，sep = ",") # 读 入 iris.csv 文 件 


> head (import .csV) 
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 
a 5 ss 1 


5 3. 0.2 setosa 
2 4.9 350 4 0.2 setosa 
3 4.7 3.2 9 0.2 setosa 
4 4.6 3.1 5 0.2 setosa 
与 520 3.6 4 0.2 setosa 
6 5 3.9 0.4 setosa 


有 几 个 read.table 的 包装 函数 使 用 起 来 比较 方便 。read.csv 函 数 默 认 将 分 隔 符 设置 为 喜 号 ， 并 假设 数据 有 标题 行 。 


> jimport.csv1 <- read.csv("iris.csv") # 利用 read.csv 将 iris.csv 文 件 读 入 
> head (import .csvl 
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 
1 1 a 由 0 1 


~ 一 


Di: .4 2 setosa 
2 4.9 3..0) 1.4 0.2 setosa 
3 4.7 3..2 1.3 0.2 setosa 
4 4.6 3.1 1..5 0.2 setosa 
3 5.0 S30 1.4 0.2 setosa 
6 5.4 3.9 1.7 0.4 setosa 


不 是 所 有 的 文本 文件 都 像 定 界 符 文 件 那样 有 一 个 定义 良好 的 结构 。 如 果 文 件 的 结构 松散 ， 更 简单 的 做 法 是 : 先 读 入 文件 中 的 所 有 文本 行 ， 再 对 其 内 容 进 行文 本 分 词 及 挖掘 。readLines (注意 两 个 单词 间 
没有 点 连接 ， 且 第 二 个 单词 的 首 字 母 是 大 写字 母 L) 就 提供 了 这 种 方法 。 它 接受 一 个 文件 路 径 (或 文件 连接 ) 和 一 个 可 选 的 最 大 行 数 作为 参数 来 读 取 文件 。 


> unstructuredText <- readLines ("unstructuredText .七 Xt") 
> unstructuredText 
[1] "BR 语言 是 一 套 开源 的 数据 分 析 解 决 方案 ， 几 乎 可 以 独立 完成 数据 处 理 、 数 据 可 视 化 、 数 据 建 模 及 模型 评估 等 工作 ， 而 且 可 以 完美 配合 其 他 工具 进行 数据 交互 。 具 体 来 说 ，R 语 言 具有 以 下 优势 : " 
2] "1) 高 效 的 数据 处 理 能 力 " 

3] "2) 数据 分 析 " 

4] "3) 数据 可 视 化 " 

5] "4) 通过 庞大 的 R 程 序 包 库 文件 进行 扩展 " 


2.3.3 “Excel 文件 的 导入 


读 取 一 个 Excel 文 件 的 最 好 方式 ， 就 是 在 Excel 中 将 其 导出 为 一 个 逗号 分 隔 值 文件 (csv) ， 并 使 用 read.csv () 的 方式 将 其 导入 R 中 。R 中 也 有 好 几 个 包 可 以 直接 将 Excel 文 件 导 入 R 中 ， 如 RODBC 包 中 的 
odbcConnectExcel2007 函 数 、xlsx 包 中 的 read.xlsx 函 数 、XLConnect 包 中 的 loadworkbook 和 readWorksheet 函 数 、readxl 包 中 的 read_ excel 函数 。 


假如 有 一 个 sample.xlsx 文 件 ， 利 用 4 种 方式 将 其 读 入 R 中 。 


# 利用 RODBC 包 读 入 
library (RODBC) 
channel <- odbcConnectExcel12007 ("sample.xlsx") # 建立 连接 


odbcdf <- sqlFetch (channel, 'data') # 读 取 工作 表 data 的 数据 
odbcClose (channel) # 关闭 连接 
oqbcdqf 总 序号 性 别 年 龄 职业 

] 5 4 

2 2 2 ] 

3 2 1 

4 ] 2 ] 

5 ] 3 5 


# 利用 Xxlsx 包 读 取 EXcel 数 据 

library (xlsx) 载 入 需要 的 程 辑 包 : rJava 载 入 需要 的 程 辑 包 : xlsxjars 

res <- read.xlsx('sample.xlsx',l1l , encoding="UTF-8") # 利用 read.xlsx 芳 数 读 取 Excel 文 件 

res 总 序号 性 别 年 龄 职业 
] 与 


1 4 
2 2 2 ] 
3 2 1 
4 只 
己 3 2 


detach (package:xlsx) 

# 利用 XLConnect 包 读 取 Excel 数 据 

library (XLConnect) 

wb <- loadWorkbook ("sample.xlsx") # 将 工作 簿 加 载 到 R 中 

xldf<-readWorksheet (wb, sheet=getSheets (wb) [1]) # 读 取 第 一 个 工作 表 的 数据 

Xldf 总 序号 性 别 年 龄 职业 
5 


4 


DDI 


OODP 


1 3 3 
# 利用 readxl 包 读 取 Excel 数 据 

library (readx1) 

readexcel <- read excel ("sample.xlsx",1,col names = 1) 


ODODPA#VVVVOPDDODPVVVVVVOEPDODNDPVVVVOPONPYVVVVvVVvVYV 


readexcel 
A tibble: 5 x 4 总 序号 性 别 年 龄 职业 
dbl><dbl><dbl><dbl> 

1 1 5 4 

2 2 ] 

3 2 1 ] 

4 ] 2 ] 

5 3 5 


2.3.4 数据 库 文 件 的 导入 


在 R 中 通过 RODBC 包 访问 一 个 数据 库 也 许 是 最 流行 的 方式 。 这 种 方式 允许 R 连 接 到 任意 一 种 拥有 ODBC 驱 动 的 数据 库 ， 其 实 几 乎 就 是 市 面 上 的 所 有 数据 库 。 


现在 ,尝试 用 RODBC 连 接生 产 环境 中 的 MySQL 数 据 库 。 由 于 服务 器 上 的 MySQL 是 32 位 ， 计 算 机 系统 是 64 位 ， 所 以 需要 在 C:\Windows\SysWOW64 文 件 夹 下 找到 odbcad32.exe， 双 击 打 开 ODBC 数 
据 源 管理 器 界面 ， 如 图 2-15 所 示 。 


志 | ODBC 数据 源 管理 器 


dFEhSE Files Nicrosoft hecess dEASE Driver tk. 
Fxcel Files Microsoft Excel Driver .xls, *,x 
MS hccess Database Microsoft hecess Driver (tw.mdb, *. 


DC 用 记 孝 扫 在 村 了 风 亲 与 指定 娄 所 的 信息 。 用 
pr 3 


图 2-15 ”ODBC 数据 源 管理 器 界面 


单 击 “ 添 加 ”按钮 ， 选 择 MySQL ODBC 驱 动 ， 完 成 之 后 会 弹出 一 个 数据 库 配 置 的 对 话 框 ， 如 图 2-16 所 示 。 


MYSQL Connector/ODBC Data Source Configuration 
As 
Connector/QDBC 


Connecton Parameters 


Data source Name: | ] 


Desoiption: 
TCP AIP Server: Port: 23306 
© Wire 
User: 
Passiword: 


Database: 再 


图 2-16 填写 ODBC 信 息 


填写 完 数据 库 信 息 ， 单 击 Test 按 钮 测试 连接 成 功 ， 在 64 位 的 Windows 下 配置 好 32 位 的 MySQL ODBC， 如 图 2-17 所 示 。 


MySOQOL Connector/ODBC Data Source Configuration 


MuSsQaQL. 
Connector/QDBC 


Connecton Parameters 


Data Source Name: daniel 
DeEscrIpbon 


古 ) TCP/IP Server: localhost Port: 3306 


Lser: root 


Passwod: eeeene Connection Successful 


Database: mysqgl 


图 2-17 ODBC 测 试 成 功 


在 32 位 的 R 中 利用 install.packages ("RODBC") 命令 安装 RODBC 包 。 包 下 载 安装 好 后 ， 可 以 利用 包 中 的 odbcConnect (dsn, uid="", pwd="", http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach_ ebook/uncompressed/16401/OEBPS/Text/..….) 函数 连接 数据 库 ， 并 继续 数据 的 传输 及 分 析 工 作 。 


> library (RODBC) 


> channel <- odbcConnect ("daniel", "root","123456") # 建立 连接 
> odbcGetInfo (channel) # 显示 数据 库 信 息 
DBMS Name DBMS Ver Driver ODBC Ver 
"MySOL" "5.5.28" "03.80" 

Data Source Name Driver Name Driver Ver 

"daniel" "myoqbc5a.q11" "05.03.0006" 

ODBC Ver Server Name 
"03.80.0000" "Localhost via TCP/IP" 


可 以 使 用 sqlSave (channel，dat，tablename=NULL，append=FALSE) 命令 将 R 中 的 数据 框 写 入 或 更 新 (append=TRUE) 到 MySQL 数 据 库 的 某 个 表 中 。 比 如 想 把 R 自 带 的 mtcars 数 据 写 入 MySQL 
中 ， 在 数据 库 中 生成 新 表 mydata。 


# 将 mtcars 数 据 集 写 入 MySQL 中 
> sqlSave (channel,mtcars, "mydata",append = FALSE) 


在 MySQL 中 查询 刚 生 成 的 新 表 mydata， 结 果 如 图 2-18 所 示 。 


可 以 利用 sqlFetch (channel, sqtable, http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/16401/OEBPS/Text/...，colnames=FALSE,，rownames=TRUE) 命令 将 MySQL 数 据 库 中 的 mydata 表 读 取 到 一 个 数据 框 中 。 


> mydata <- sqlFetch (channel, "mydata") 

> str(mydata) 

'data.frame': 32 obs. of 11 variables: 

$ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 
$ cyl :nm 6646868 4 46 http://ww.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 

$ disp: num 160 160 108 258 360 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 


$ hp : num 110 110 93 110 175 105 245 62 95 123 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/.. 

$ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ， ebook/ uncompressed/16401/0BBPS/Text/ ,. . 
$ wt num 2.62 2.88 2.32 3.21 3.44 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/. 

$ qsec: num 16.5 17 18.6 19.4 17 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressedq/16401/OEBPSVText/. . 

$ vs num 0011010111 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ébook/uncompressed/16401/0EBPS/Text/... 

$ am num 1 1 0000000 nttp://ww.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 

$ gear: num 444333344 4 http://ww.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 

$ carb: num 4 4 2 1422 4 http://ww.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 


卫 * 无 标题 @mysql (local) - 查询 
了 > 运行 - 轩 停止 但 解 秋 名 新 建 高 载 入 加 保存 欧 另 存 为 :人 美化 SQL 国 备 注 - 驴 导出 


LA 


select * from mydata; 


[Le 


8 
了 


Mazda RX4 
Mazda RX4 Wag 
Datsun 710 


Hornet 4 Dnve 
Hornet Sportabout 
‘Valiant 


一 一 一 


Duster 360 
Merc 230 
(Merc 280 

四 Merc 280C 

Merc 450SE 
Name 450SL 

| Merc 450SLC 


tw WH mm hho a mm ha oa 
oocorrhrhrrhreoreorrhme lx 
© ©O 0 oooeeoeoopp pp 
REE 
由 由 


图 2-18 ”将 R 中 的 数据 框 写 入 MySQL 中 


可 以 使 用 sqlQuery (channel, query, errors=TRUE, http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach_ebook/uncompressed/16401/OEBPS/Text/...，rows_at_time) 命令 向 MySQL 数 据 库 提交 一 个 查询 并 返回 结果 。 比 如 想 对 mydata 表 按照 vs 和 和 am 统计 分 组 ， 并 统计 mpg 的 
平均 组 ， 执 行 以 下 代码 可 以 完成 该 操作 。 


> rm(list=1s ()) 

> 1s() 

character (0) 

> result <- sqlQuery (channel,"select vs,am,avg (mpg) from mydata group by vs,am") 

> result 
VS am avg (mp9g) 

1 0 0 15.05000 

2 0 1 19,.73000 

3 了 0 20.74286 

4 1 28.37143 


利用 sqlDrop (channel，sqtable，errors=TRUE) 命令 可 以 直接 删除 数据 库 中 的 某 个 表 。 比 如 删除 mydata 表 ， 在 R 中 执行 以 下 命令 后 得 到 的 结果 如 图 2-19 所 示 。 


> sqlDrop (channel, "mydata") 上 # 删除 数据 库 中 的 mydata 表 
> odbcClose (channel) 关闭 连接 


, 对 Gmysqldoc) -sa 
ata 


information_schema > 运行 图 停止 间 解 释 名 新 建 高 载 入 加 避 


[SQUselect * from mydata:; 
[Err] 1146 - Table ‘mysql.mydata' doesn't exist 


图 2-19 MySQL 中 已 不 存在 mydata 表 


2.3.5 网络 数据 的 爬 取 


在 网 络 数据 聆 取 的 过 程 中 ， 用 户 从 互联 网 上 提取 嵌入 在 网 页 中 的 信息 ， 并 将 其 保存 为 R 中 的 数据 结构 进一步 分 析 。 因 为 R 有 内 置 的 Web 服 务 器 ， 所 以 某 些 读 取 数据 的 函数 默认 带 有 网 络 访问 功能 。 例 


如 ，read.table (或 read.csv) 可 以 接受 一 个 URL 作 为 参数 。 


~ 


以 Justin Rao 的 网 站 上 从 2002 年 到 2008 年 间 的 NBA 工 资 数据 为 例 (http://www.justin-mrao.com/salary_data.csv) 进行 演示 。 


> salary data <- read.csv ("http://www.justinmrao.com/salary data.csv") 
> head (salary data) 


team year player contract years remaining 

1 Boston Celtics2002-03Bremer, J.R. 1 
2 Cleveland Cavaliers 2003-04 Bremer, J.R. 1 
3 Charlotte Hornets 2001-02 Brown, P.J. 7 
4 New Orleans Hornets2002-03 Brown, P.J. 7 
5 New Orleans Hornets 2003-04 Brown, P.J. 4 
6 New Orleans Hornets 2004-05 Brown, P.J. 4 

contract thru position full name salary year salary total year counter obs 
1 2002-03 G Bremer 349458 349458 下 2 
2 2003-04 G Bremer 563679 563679 2 2 
3 2002-03 F Brown 6404800 36000000 ] 6 
4 2002-03 F Brown 7044800 36000000 2 6 
5 2006-07 F Brown 8000000 34000000 3 6 
6 2006-07 F Brown 8000000 34000000 4 6 
mean salary mean remaining 
1 456568.5 1 
之 456568 .5 由 
3 7668267.0 5 
4 7668267.0 D 
5 7668267.0 5 
6 7668267.0 5 


完成 这 个 任务 的 另 一 种 途径 是 使 用 函数 readLines 下 载 网 页 ， 然 后 使 用 正则 表达 式 对 有 用 的 数据 进行 提取 及 分 析 。 例 如 ， 想 礁 取 一 个 在 线 教育 网 站 的 所 有 在 线 课程 ( 共 8 页 ) 的 课程 名 称 、 课 时 数 、 学 生 
人 数 、 授 课 老 师 、 课 程 价格 等 信息 。 网 页 及 源 代码 如 图 2-20 所 示 。 
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图 2-20 ”网 站 页 面 及 网 页 源 代码 


解析 网 页 源 代 码 ， 利 用 正则 表达 式 提取 相关 数据 。 


# 方法 一 利用 reaqLines 函 数 和 正则 表达 式 提取 网 页 数据 

# 爬 取 全 部 网 页 

web <- NULL 

for(i in 1:8)f{ 

url <- paste0 ("https://edu.hellobi .com/course/explore?page=",1i) 
webl <- readLines (url,encoding = 'UTF-8') 

web <- c (webl,web) 


# 提取 课程 名 称 所 在 的 行 

class <- web [grep ("class=\"caption\"",web)+3] 

# 删除 多 余 的 空格 

<- gsub ("”"，""7 CasSss) 

# 提取 课时 所 在 的 行 

length <- web [grep ("class=\"length\"",web)] 

# 利 j 用 正则 表达 支 提取 课时 数 

length <- substr (length,regexpr ("i>",length)+2,regexpr(" 课 ", Length) -1) 
# 提取 学 生 人 数 

People <- weblgrep ("class=\"pull-right people\"",web)] 

people <- substr (people,regexpr (">",people)+1,regexpr ("人 ",people) -1) 
# 提取 授课 老师 

teacher <- wepb [grep ("class=\"teacher\"",web)] 

for(i in 1:length (teacher) ) { 


MYVMYMYMMYMMYMMYMYMMYMMYMMYMYMMYMMYV 二 十 十 十 MMVMVYV 


Ea /spar 


十 teacher[i] <- 

+substr (teacher [i],gregexpr (">",teacher[i])[[1]] [2]+1,gregexpr ("<",teacher[i])[[1]][3]1-1) 
二 

> 起 提取 课程 价格 
> price <- web [grep ("class=\"teacher\"",web)+1] 
> price <- substr (price,regexpr (">",price)+1,regexpr ("/",price) -2) 
> # 将 结果 整理 成 data.frame 形 式 
> result <- data.frame (课程 =class, 课 时 数 =length, 学 生 人 数 =people, 
授课 老师 =teacher, 课程 价格 =price) 


十 
> head (result) 


课程 课时 数 学 生 人 数 授课 老师 课程 价格 
1 SSRS2012WIN8Metro 高 端 报 表 教 程 13 1015 IWORK 免费 
2 OBIEE 深 入 浅 出 精品 视频 教程 61 150 冰 咖 啡 1500 元 
3 问答 社区 微软 BI 问题 及 性 能 优化 工具 合集 10 465 梁 勇 免费 
4 SSRS2012MetroUI 高 端 报 表 视 频 教 程 57 159 BIWORK 1800 元 
5 天 善 问答 OracleBIEE 常 见 问 题 视 频 教程 3 654 冰 咖 啡 免费 
6 天 善 内 部 精品 Cognos 教 程 8 1041 曾 力 免费 


也 可 以 用 rvest 包 快速 实现 以 上 的 数据 代 取 工作 。 代 码 如 下 。 


# 井 ### 利用 Fvest 包 有 爬 取 网 页 数据 
library (rvest) 
library (magrittr) 
result <- data.frame (课程 =1, 课 时 数 =1, 学生 人 数 =1, 授课 老师 =1, 课程 价格 =1) 
result <- result[-1,] 
for(i in 1:7)f{ 
Url <- paste0 ("hnttps://edu.hellobi .com/course/explore?page=", i) 
web <- read html (url,encoding = 'UTF-8') 
class <- web %$>% html nodes ("div.course-box") %>% 
html nodes ("img") 撒 提取 课程 名 称 
class <- substr(class,regexpr ("alt=", class)+5,regexpr (">",class)-3) 
length <- web %>% html nodes ("div.meta") %>% html nodes ("span.length") %>$% 


html] text() # 提取 课时 数 


people <- web %>% html nodes("div.meta") $%>% html nodes ("span.people") 和 > 区 
html text() # 提取 学 习 人 数 
teacher <- web %$>% html nodqes ("dqiv.meta") %>%$ html nodes ("span.teacher") %>% 


html text() # 提取 老师 
price <- web %>% html nodes ("div.meta") %>% html nodes ("span.price") %>% 
html text() # 提取 价格 

result1l1 <- data.frame (课程 =class, 课 时 数 =length, 学 生 人 数 =people, 

授课 老师 =teacher, 课程 价格 =price) 

result <- data.frame (rbind (result,result1)) 
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} 


> head (result) 
课程 课时 数 学 生 人 数 授课 老师 课程 价格 
1 机 器 学 习 技 术 在 Python 语 言 的 商业 应 用 录 播 4 课时 ”94 人 学 习 诺 被 玮 免费 
2 ”Python 机 器 学 习 kaggle 案 例 6 课时 ”166 人 学 习 唐 宇 迪 免费 
3 ”对 话 大 数据 系列 技术 从 破冰 到 精进 41 课 时 10 人 学 习 ”MarsJ ”499 元 
4 需求 链 驱 动 数 据 化 的 零售 生意 录 播 2 课时 57 人 学 习 dxcking 免费 
5 基本 统计 方法 及 其 在 R 中 的 实现 5 课时 129 人 学 习 黄 小 明 免费 
6 用 数据 说 话 -Excel BI 商业 智能 分 析 零 基础 精 讲 课程 5 课时 9 人 学 习 ” 李 奇 499 元 


R 中 也 有 若干 用 于 拒 取 网 络 数据 的 包 ， 如 quantmod、XML、RCurl 等 ， 可 以 息 取 各 种 复杂 的 网 络 数据 。 其 中 quantmod 包 是 R 平 台 用 于 金融 建 模 的 扩展 包 。 主 要 功能 有 : 从 多 个 数据 源 获取 历史 数据 、 
绘制 金融 数据 图 表 、 在 金融 数据 图 表 中 添加 技术 指标 、 计 算 不 同时 间 尺 度 的 收益 率 、 金 融 时 间 序 列 分 析 、 金 融 模 型 拟 合 与 计算 ， 等 等 。 


例如 ， 从 雅虎 爬 取 创 梦 天 地 (股票 代码 : DSKY) 上 市 至 今 的 股价 数据 。 利 用 get-Symbols 函 数 实 现 。 


> library (quantmod) 
> getSymbols ("DSKY", scr="yahoo") 
> # 查看 最 后 六 天 的 股票 记录 


> tail (DSKY) 

DSKY .Open DSKY.High DSKY.Low DSKY.Close DSKY.Volume DSKY .Adjusted 
2016-05-17 13;53 13.71 13.48 L335 94000 13.55 
2016-05-18 13.44 13.66 13.44 13.66 86400 13.66 
2016=05=19 下 .3 13.67 13.55 L1338 59400 J3:58 
2016=05=20 13.58 L3370 1 338 13.69 62400 13;69 
2016-05-23 13.67 二 3 入 13:063 13:70 71200 13.70 
2016-05-24 1 367 35 74 13.63 L3567 29900 L307 


getsymbols 函 数 把 股票 每 天 的 开盘 价格 、 最 高 价格 、 最 低 价 格 、 收 盘 价格 、 成 交 量 和 调整 价格 都 玲 取 到 R 中 。 可 以 利用 candleChart 函 数 绘制 蜡烛 图 ， 如 图 2-21 所 示 。 


candleChart (DSKY, theme="white") # 蜡 烛 图 


DSKY [2014-08-07/2016-05-24] 
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图 2-21 绘制 蜡烛 图 


2 小生 


本 章 首先 介绍 了 R、Rstudio 和 Rattle 工 具 的 安装 和 界面 ， 以 及 R 语 言 的 一 些 基 本 知识 ， 让 读者 对 R 语 言 有 了 大 概 的 认识 。 然 后 介绍 了 几 种 常用 数据 对 象 的 创建 及 相关 操作 。 
R 的 常用 方法 ， 包 括 导入 文本 文件 、 导 入 Excel 文 件 、 利 用 R 对 数据 库 进行 管理 和 简单 的 R 息 虫 技术 。 


最 后 介绍 了 将 外 部 数据 源 导入 


第 3 章 Ri 语言 会 图 重要 技术 


R 语 言 除了 拥有 良好 的 数据 处 理 和 分 析 能 力 外 ， 对 于 展现 数据 也 有 极其 灵活 和 强大 的 应 用 。 由 于 用 图 形 表达 分 析 结 果 往 往 更 直观 和 简单 ， 所 以 对 于 优秀 的 分 析 报 告 而 言 ， 将 数据 结果 以 适当 的 图 形 方 式 展 
示 后 ， 其 沟通 效果 和 说 服 力 会 更 佳 。 


本 章 将 介绍 如 何 向 一 幅 简 单 的 图 形 中 添加 元 素 ， 以 得 到 更 有 用 和 更 吸引 人 的 图 形 ， 以 及 绘制 各 种 类 型 图 形 的 函数 。 


3.1 ”常用 图 形 参 数 


R 是 一 个 功能 强大 的 图 形 构建 平台 ， 可 以 逐条 输入 语句 构建 图 形 元 素 (颜色 、 点 、 线 、 文 本 等 ) ， 逐 渐 完善 图 形 ， 直 至 得 到 想 要 的 结果 。 
更 改 图 形 参数 有 两 种 方式 ， 一 种 是 直接 在 绘图 遂 数 中 设置 参数 ， 这 种 方式 只 影响 当前 的 绘图 函数 ; 另 一 种 是 通过 par () 函数 设置 ， 这 种 方式 会 影响 当前 绘图 设备 上 的 所 有 图 形 。 
3.1.1 ”颜色 元 素 


R 语 言 可 以 设置 绘图 参数 col， 改 变 图 像 、 坐 标 轴 、 文 字 、 点 、 线 等 的 颜色 。 例 如 ， 对 数据 集 women 绘 制 红色 散 点 图 ， 只 需 将 col 参 数 设 置 为 "red"， 如 图 3-1 所 示 。 


>plot (women，col="red") # 通 过 颜色 名 称 设置 散 点 颜色 


除了 通过 将 颜色 赋值 给 col 参 数 外 ， 也 可 以 通过 颜色 下 标 、 十 入 进 制 的 颜色 值 和 RGB 值 给 col 参 数 赋值 。 以 下 代码 可 以 绘制 和 图 3-1 相 同 的 效果 。 


> plot (women, col=554) # 通过 颜色 下 标 设置 

> plot (women, col="#FF0000")  # 通 过 十 六 进 制 的 颜色 值 设置 

> mycolor<- rgb (red=255, green= 0,blue=0,max=255) 

> plot (women, col=mycolor) # 通过 RGB 值 设置 

除了 利用 col 参 数控 制 绘图 颜色 外 ， 也 可 以 通过 其 他 参数 来 设置 图 形 的 前 景色 、 背 景色 、 标 题 颜色 、 坐 标 轴 颜 色 等 。 参 数 拉 述 如 表 3-1 所 示 。 


表 3-1 用 于 指定 颜色 的 参数 


0 TI 生机 村 和 的 大 


因 形 的 前 景色 二 标题 的 关 色 


对 图 3-1 增 加 主 标题 、 副 标题 ， 且 将 主 标题 的 颜色 设置 为 绿色 ， 副 标题 的 颜色 设置 为 蓝 色 ，X 轴 坐标 的 刻度 文字 设置 为 灰色 ， 刻 度 标签 设置 为 黄色 。 只 需 执行 以 下 脚本 ， 得 到 的 结果 如 图 3-2 所 示 。 


Plot (women main=" 身 高 VS 体重 散 点 图 ， "sub=' 数据 来 源 : women 数 据 集 "， 
Col="red", col. me 'green", col .sub="blue", 
十 CO .axis="grey", COoL .1ab=' 'yellown ) 
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数据 米 源 : women 数 据 集 


图 3-2 ”对 图 形 其 他 参数 进行 颜色 设置 


R 语 言 提供 了 自 带 的 固定 种 类 颜色 ， 主 要 涉及 的 函数 是 colors () ， 该 国 数 可 以 生成 657 种 颜色 名 称 ， 代 表 657 种 颜色 ， 具 体 如 下 。 


> colors() 

[1] “white" "aliceblue" "antiquewhite" 
[4] "antiquewhitel" "antiquewhite2" "antiquewhite3" 
[7] "antiquewhite4" "aquamarine" "aquamarinel™..…. 
[649] "wheat3" "wheat4" "whitesmoke" 
[652] "yellow" "yellowl" "yellow2" 

[655] "yellow3" "yellow4" "yellowgreen" 


除了 固定 颜色 选择 函数 外 ，R 本 身 也 提供 了 特定 颜色 主题 的 配色 方案 。 这 些 配色 方案 用 一 系列 渐变 的 颜色 表现 特定 的 主题 ， 如 rainbow () 、heat.colors () 、terrain，colors () 、 
topo.colors () 、cm.colors () 等 国 数 。 函 数 说 明 如 表 3-2 所 示 。 


表 3-2 常用 主题 函数 说 明 


主题 函数 描 述 
rainbow() 彩虹 的 颜色 ,由 “ 赤 、 柳 、 黄 、 绿 、 青 、 蓝 、 紫 ”一 系列 颜色 组 成 
heat.colors() 从 红色 渐变 到 黄色 ， 再 变 到 日 色 
terrain.colors() 从 绿色 渐变 到 黄色 ， 再 到 柠 色 ， 最 后 到 白色 
topo.colors() 从 蓝 色 渐 变 到 青色 ， 再 到 黄色 ， 最 后 到 棕色 
cm.colors() 从 育 色 渐变 到 日 色 ， 再 到 粉红 色 


执行 以 下 脚本 ， 得 到 5 个 由 不 同 主题 函数 绘制 的 柱状 图 ， 如 图 3-2 所 示 。 


> barplot (rep (1,7),col=rainbow(7),main="barplot (rep (1,7),col=rainbow(7))") 


> barplot (rep (1,7),col=heat.colors (7),main="barplot (rep (1,7),col=heat.colors (7) )") 
> barplot (rep (1,7),col=terrain.colors(7),main="barplot (rep (1,7),col=terrain.colors(7))") 
> barplot (rep (1,7),col=topo.colors(7),main="barplot (rep (1,7),col=topo.colors(7))") 
> barplot (rep (1,7),col=cm.colors(7),main="barplot (rep (1,7),col=cm.colors (7))") 
> par (mfrow=c (1,1)) 
barpliotrep{1,/),col=rainboww/)) barplotlrep1,1jcol=-heatLcoliors 1 
[= 二 四 
-= = 
-| mn | 
= S- 
barplotlrep(1,7),col=terrain.colors(?)) barplotlrep(1,7),col=topo.colors(?) 
- _ ~ 记 
3 1 8 1 
81 81 
1 1 
= DO- 
barplotlrep(1,7),col~cm.colors{7)) 


| 


图 3-3 ”利用 不 同 主题 函数 绘制 的 柱状 图 


3.1.2 ”文字 元 素 
文字 元 素 可 以 设置 的 参数 一 般 包 括 : 字体 (font) 、 颜 色 (col) 、 大 小 (cex) 等 ， 颜 色 在 上 一 小 节 已 经 介绍 过 ， 这 里 重点 讲解 如 何 设置 文字 的 字体 和 大 小 。 
可 以 通过 font 参 数 来 设置 字体 。font 参 数 的 取 值 是 一 个 整数 ， 一 般 分 别 用 1、2、3、4、4 来 表示 正常 体 、 粗 体 、 和 斜体 和 粗 斜 体 。 


执行 以 下 脚本 ， 得 到 4 种 常用 字体 的 样式 ， 如 图 3-4 所 示 。 


图 3-4 设置 font 参 数 得 到 不 同 的 字体 


plot (0:4,type="n",axes = F,xlab = NA,ylab = NA) 
type <- c(" 正 常 字体 (默认)"," 粗 体 字体 ", "斜体 字体 ", " 粗 斜 体 字 体 ") 
for(i in 1:4)f{ 

text (2, 5-i,1labels = paste0 ("font=",i,":",typel[lil]),font = i) 


} 


让 牛 VYVY 


可 以 通过 cex 参 数 来 设置 文字 的 大 小 。cex (缩放 倍数 ) 参数 的 取 值 是 一 个 实数 ， 默 认为 1， 表 示 不 缩放 。 取 值 小 于 1 时 ， 表 示 缩 小 ， 取 值 大 于 1 时 ， 表 示 放 大 。 以 下 代码 中 的 cex 分 别 取 0.5、0.8、1、 


1.5、2， 得 到 的 文字 大 小 样式 如 图 3-5 所 示 。 


cex=0.5: 放 大 0.5 售 


图 3-5 设置 cex 参 数 得 到 不 同 的 文字 大 小 


> plot (0:5,type="n",axes = F,xlab = NA,ylab = NA) 
> text (2,5,1labels="Cex=0.5: 放 大 0.5 倍 "Cex=0.5) 
> text (2,4, labels="cex=0,8: 放 大 0.8 信 "cex=0.8) 
> text (2, 3, labels="cex=1 (默认 ) :正常 大 小 ", cex=1) 


> text (2,2,， Labels="cex=1.5: 放 大 1.5 们 "Cex=1.5) 
> text (2,1,1labels="cex=2: 放 大 2 倍 ", cex=2) 


.3 ”所 元 素 


点 元 素 可 以 设置 的 参数 一 般 包 括 : 点 样式 (pch) 、 颜 色 (col) 、 大 小 (cex) 等 。 前 文 已 经 介绍 过 颜色 和 大 小 ， 接 下 来 学 习 点 样式 pch 参 数 。 


pch (点 样式 ) 参数 可 取 0~25 的 数字 ， 对 于 符号 21~25， 还 可 以 指定 边界 颜色 (col=) 和 填充 色 (bg=) 。 下 面 代码 中 的 pch 取 值 为 0~25， 结 果 如 图 3-6 所 示 。 


plot (1, col="white", xlim=c (1,7),ylim=c (1,5), 

main = "点 样式 pch=", xlab=NA, ylab=NA 

for(i in c(0:25)){ 

x<—- (i %$/% 5)*1+1 

vy<=-6= (1%$%5)=1 

if (length (which (c (21:25)==i)>=1)){ 

points (x, y, pch=i, col="blue",bg="yellow", cex=2) 
} else { 

points (x, y, pch=i, cex=2) 


十 十 十 十 十 十 十 十 十 V+Vv 
[nl 


i 


} 
text (x+0.2,Yy,1labels = 1i) 


1 2 3 -- 2 6 1 


图 3-6 ”设置 pch 参 数 不 同 值 时 的 点 样式 


此 外 ，pch 参 数 也 可 以 是 "" 里 的 单个 字符 。 例 如 ，pch 的 取 值 可 以 为 *，? ，a，A，0，.，+，-,，|"。 执 行 以 下 代码 ， 效 果 如 图 3-7 所 示 。 


> # .Bch 取 和 值 可 六 为 "， ?了 A 0 v5 3 = | 

> points (6,4,pch="*", cex=2) ;text (6+0.2,4,1abels="\"*\"") 
> points (6,3,pch="?", cex=2) ;text (6+0.2,3,1abels="\"?\"") 
> points (6,2,pch="a", cex=2) ;text (6+0.2,2,1abels="\"a\"") 
> points (6,1,pch="A", cex=2) ;text (6+0.2,1,1abels="\"A\"") 
> points (7,5,pch="0", cex=2) ;text (7+0.2,5,1abels="\"0\"") 
> points (7,4,pch=".",cex=2) ;text (7+0.2,4,1abels="\".\"") 
> points (7,3,pch="+", cex=2) ;text (7+0.2,3,1abels="\"+\"") 
> points (7,2,pch="-", cex=2) ;text (7+0.2,2,1abels="\"-\"") 
> points (7,1,pch="|",cex=2) ;text (7+0.2,1,1abels="\"|\"") 


点 样式 pch= 


四 口 0 过 B@ 10 国 15 ® 20 Vy 25 0 "0 
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cq 和 米 8 世 13 争 18 令 23 a "a - 

- X 4 件 9 四 14 @ 19 A 24 A NA 
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图 3-7 设置 pch 参 数 不 同 值 时 的 点 样式 


3.1.4” 线 元 素 


线 元 素 可 以 设置 的 参数 一 般 包 括 : 线条 样式 (lty) 、 颜 色 (col) 、 粗 细 (lwd) 等 。 其 中 线 的 粗细 |wd 参 数 与 文本 及 点 的 大 小 cex 相 似 ，|wd (宽度 ) 参数 默认 为 1， 表 示 不 缩放 。 取 小 于 1 时 ， 表 示 缩 
小 ， 取 大 于 1 时 ， 表 示 放 大 。 


线条 样式 (lty) 主要 是 指 实 线 、 虚 线 、 点 线 、 点 划 线 等 的 样式 。lty 参 数 的 不 同 数值 对 应 不 同 的 线条 样式 ， 如 表 3-3 所 示 。 


表 3-3 1lty 参 数 可 指定 的 线条 样式 


运行 下 面 的 代码 ， 可 以 查看 ty 参数 取 值 为 0~ 6 时 的 样式 ， 结 果 如 图 3-8 所 示 。 


t (x=1:10,y=rep (1,10),type="1",1ty=0,ylim=c (1,8),xlim=c(-1,10), 
axes=F, XxXlab=NA, ylab=NA) 
text (0,1,1abels="lty=0") 
for(i in 2:7)f{ 
lines (x=1:10,y=rep (i,10),1ty=i-1,xlab=NA, ylab=NA) 
text (0,i,1labels=paste0 ("lty=",i-1)) 


le 
O 


二 十 二 VV+V 


lty=6 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
lty=5 —-—--------- 一 一- 一- 一 一 一 一 一 一 一 一 一 一 


lty=1 


lty=0 


图 3-8 设置 不 同 lty 参 数值 的 样式 


3.2 ”低级 绘图 负数 


R 还 可 以 通过 函数 在 现 有 图 形 的 基础 上 增加 一 些 额外 的 内 容 ， 如 添加 标题 、 绘 制 坐标 轴 、 在 特定 的 位 置 增加 图 形 (如 辅助 线 ， 拟 合 线 ) 或 文字 等 。 这 些 函 数 在 R 中 称 为 低级 作 图 命令 (low-level plotting 
command) 。 


除了 图 形 参数 ， 许 多 高 级 函数 (如 plot、barplot、boxplot、qqnorm) 也 人 允许 自行 设 定 坐标 轴 和 文本 选项 。 以 下 代码 在 图 形 上 添加 了 主 标题 (main) 、 副 标题 (sub) 、 坐 标 轴 标 签 (xlab、 
ylab) ， 结 果 如 图 3-9 所 示 。 


> attach (iris) 
> boxplot (Sepal .Length~Species, col=heat .colors (3), 
main=1list ("Sepal .Length 按 照 Species 分 类 的 箱 线 图 "， 
font=4, col="red", cex=1 .5), 
sub=1ist ("数据 来 源 : iris 数 据 集 ", font=3， 
Col="green", cex=0.8), 
xlab="Species",ylab="Sepal .Length") 


十 十 十 十 十 


SepalLLength 按 照 Species 分 类 的 箱 线 图 


Sepal.Length 


setosa versicolor virginica 


Specles 
图 3-9 ”添加 了 主 标题 、 副 标题 、x 轴 及 y 轴 标签 的 箱 线 图 
数据 来 源 : ins 数 据 集 
可 以 使 用 title () 函数 为 图 形 添加 标题 和 坐标 轴 标 签 。 调 用 格式 为 : 


NULL, sub 
NA, outer 


title (main 
line 


NULL, xlab = NULL, ylab = NULL, 
FALSE, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/...) 


title 常 用 参数 说 明 如 表 3-4 所 示 。 


表 3-4 title 函数 的 常用 参数 


参 数 说 。 有 明 


main 设置 主 标题 内 容 和 文字 属性 
sub 设置 副标题 内 容 和 文字 属性 
xlab 设置 x 轴 标 题 内 容 和 文字 属性 


ylab 设置 y 轴 标 题 内 容 和 文字 属性 
line 设置 line 的 值 可 以 将 标签 移 到 图 外 面 
outer 设置 outer=TRUE 可 以 将 标签 放 在 外 部 边 距 中 


执行 以 下 代码 可 以 得 到 与 图 3-9 相 同 效果 的 箱 线 图 。 


> boxplot (Sepal .Length~Species, colL=heat.colors (3) ) 

> title (main=1ist("Sepal.Length 掖 照 Specjies 分 类 的 箱 线 图 "， 

font=4, col="red", cex=1 .5), 

sub=1ist ("数据 来 源 : iris 数 据 集 ", font=3， 
CoOl="green", cex=0.8), 

xlab="Species",ylab="Sepal .Length") 


十 十 十 十 


由 上 可 见 ， 对 标题 的 多 个 参数 赋值 时 ， 其 赋值 形式 是 以 list 形 式 承 载 的 。 也 可 以 先 使 用 main = " 主 标题 "， 设 置 主 标题 内 容 ， 再 通过 font.mian、col.main、cex.main 设 置 主 标题 文字 的 样式 、 颜 色 和 大 
小 。 执 行 以 下 代码 可 得 到 与 图 3-9 相 同 效果 的 箱 线 图 。 


> boxplot (Sepal .Length~Species, col=heat .colors (3)) 
> title (main="Sepal .Length 按 照 Species 分 类 的 箱 线 图 "， 
font.main=4,col.main="red",cex.main=1.5, 
Sub=" 数 据 来 源 : iris 数 据 集 "，, font .sub=3， 

Col .Sub="dgreen'" cex.sub=0.8, 
xlab="Species",ylab="Sepal .Length") 


十 十 十 十 


3.2.2 ”坐标 轴 


在 高 级 绘图 函数 中 一 般 都 有 用 于 设置 坐标 轴 展 示 和 范围 的 axes、xlim 和 ylim 参 数 。 其 中 axes 是 逻辑 参数 ，axes=TRUE (默认 ) 时 ， 显 示 x 轴 和 y 轴 ，axes=FALSE 时 ， 隐 藏 x 轴 和 y 轴 ; 参数 xaxt="n" 和 
yaxt= "n" 分 别 隐藏 x 轴 或 y 轴 ; xlim、ylim 参 数 设置 x 轴 、y 轴 范围 。 


低级 绘图 函数 axis () 可 以 在 上 、 下 、 左 、 右 4 个 边 上 设置 坐标 轴 ， 并 设置 坐标 轴 的 范围 /刻度 标记 等 。 其 调用 形式 为 : 


axis (side, at = NULL, labels = TRUE, tick = TRUE, line = NA, 
pos = NA, outer = FALSE, font = NA, lty = "solid", 


lwd = 1, lwd.ticks = lwd, col = NULL, col.ticks = NULL, 
hadj = NA, padj = NA, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/...) 


主要 参数 如 表 3 号 5 所 示 。 


表 3-5 axis 函数 的 常用 参数 


参 数 说 。 有明 


整数 值 ， 设 置 坐 标 轴 所 在 的 边 。 当 取 值 为 1、2、3、4 时 ,分 别 表示 坐标 轴 处 于 下 、 左 、 上 、 右 
各 边 


at 通过 回 量 来 设置 坐标 轴 内 各 刻度 标记 的 位 置 ，at 参数 要 与 labels 回 量 一 一 对 应 
逻辑 值 或 回 量 。 如 果 是 逻辑 值 ， 设 置 刻 度 上 是 否 要 加 上 数值 注释 ; 如 果 是 向 量 ， 其 中 的 每 个 值 就 


side 


be 是 一 个 刻度 的 标签 ， 要 与 at 向 量 一 一 对 应 
ee 逻辑 值 ， 如 果 tick=TRUE (默认 )， 则 画 出 坐标 轴 。 如 果 tick=FALSE， 则 不 画 坐 标 轴 ， 此 时 并 不 


影响 刻度 标记 labels 的 展示 

line 坐标 轴 距 离 边 距 的 行 数 

pos 坐标 轴 绘 制 位置 的 坐标 ， 与 男 一 条 坐标 轴 相 交 位 置 的 值 

outer 逻辑 值 ， 设 置 坐 标 轴 是 否 夯 在 外 部 边 距 中 。outer=FALSE 表示 把 坐标 轴 画 在 标准 边 距 中 
font 坐标 轴 文 字 的 字体 

lty 坐标 轴 和 刻度 的 线条 类 型 


利用 高 级 绘图 函数 boxplot 对 iris 数 据 集 绘 制 箱 线 图 ， 将 参数 axes 设 置 为 FALSE 隐 藏 Xx 轴 和 y 轴 ， 然 后 利用 低级 绘图 函数 axis 详 细 设 置 x 轴 和 y 轴 。 执 行 以 下 代码 得 到 的 结果 如 图 3-10 所 示 。 


> 坦 加 载 TFris 数 据 到 内 存 

> attach (Iris) 

> # 绘 制 箱 线 图 

> boxplot (Sepal .Length~Species,col=heat.colors (3) ， 
十 axes=FALSE, xlab="Species", ylab="Sepal .Length") 

> # 设 置 X 轴 样式 

> axis (side=1,at=1:3,1abels=unique (Species),col.axis="red",tick=FALSE) 
> # 设 置 Y 轴 样式 


> axis (side=2,col.ticks = "gold",font = 3,col = "blue") 
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setosa versicolor virginica 


Species 
图 3-10 通过 zis 函 数 调整 x 轴 和 y 轴 格式 


side=1 表 示 设 置 x 轴 ，col.axis= "red"b 表 示 将 x 轴 刻度 标记 颜色 设置 为 红色 ，tick=FALSE 表 示 不 显示 坐标 轴 ; side= 2 表示 设置 y 轴 ，font=3 表 示 y 轴 字体 是 斜体 ，col= "blue" 表 示 y 轴 线条 是 蓝 
色 ，colticks= "gold "表示 将 刻度 颜色 设置 为 金色 。 


3.2.3 图 例 


当 图 形 中 包含 的 数据 不 止 一 组 时 ， 通 常会 使 用 不 同 的 颜色 来 区 分 ， 并 且 使 用 图 例 说 明 不 同 颜色 代表 的 组 别 。 图 例 中 既 包 含 文字 ， 也 包含 点 和 线 元 素 。 可 以 利用 legend 函 数 来 设置 图 例 参 数 。 
legend 函 数 的 常用 参数 如 表 3-6 所 示 。 


表 3-6 legend 函 数 的 常用 参数 


x 和 y 


legend 
fill 
col 
lty 
lwd 
pch 
bty 
bg 
horiz 
title 
ncol 


ad] 


参 数 


说 明 

图 例 的 位 置 坐标 ， 除 了 使 用 x 和 y 人 参数 外 ， 也 可 以 使 用 "bottomright" "bottom" "bottomleft" "left" 
"topleft" "top" "topright" "right" 和 "center" 参数 

一 个 字符 回 量 ， 表 示 图 例 中 的 文字 

字符 癌 量 ， 设 置 每 个 岁 例 标签 的 颜色 

图 例 中 点 / 线 的 颜色 

图 例 中 线条 的 类 型 

图 例 中 线条 的 宽度 

向 量 ， 图 例 中 的 点 符号 

图 例 边 框 的 类 型 

图 例 边框 的 背景 色 

图 例 的 摆 放 方式 ， 为 FALSE (上 默认) 时 ， 图 例 垂 且 排列 ， 为 TRUE 时 ， 图 例 水 平 排列 

设 定 图 例 的 标题 

设置 图 例 的 列 数 

图 例文 字 的 对 齐 方式 


下 面 看 看 对 1940 年 弗吉尼亚 州 的 死亡 率 作 图 的 一 个 例子 。 执 行 以 下 代码 得 到 的 结果 如 图 3-11 所 示 。 


> 
> 
之 
> 
十 


# 绘 制 分 组 柱状 图 
barplot (VADeaths, beside = TRUE, Col=cm.colors (5)) 
# 添加 图 例 
legend ("top", legend=rownames (VADeaths), 

ncol=5,1 


fil1l=cm.colors (5) ,bty="n") 


将 图 例 摆 放 在 top 位 置 ， 图 例 内 容 为 VYADeaths 数 据 集 的 行 名 称 ， 图 例 列 数 设置 为 5， 每 个 图 例 标 签 的 颜色 设置 为 与 柱子 对 应 的 类 别 颜色 相同 ， 最 后 不 要 图 例 边 框 。 


3.2.4 ”网 格 线 


使 用 grid () 函数 可 以 在 绘图 的 基础 上 添加 网 格 线 ， 其 参数 主要 包括 : ny 用 于 设置 水 平 网 格 的 数目 ;nx 用 于 设置 垂直 网 格 的 数据 ， 设 置 为 NA 时 ， 表 示 不 绘制 相应 的 网 格 线 ; Ilwd、Ity 和 col 参 数 分 别 设 
置 网 格 线 的 宽度 、 样 式 和 颜色 。 
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图 3-11 通过 legend 函 数 设 置 图 例 


继续 以 VADeaths 为 例 ， 执 行 以 下 代码 得 到 的 结果 如 图 3-12 所 示 。 


> op <- par (mi 


> barplot (VADea 


十 


> grid() 
> barp] 


十 


Lot (VADeat 
main="plo 


fcol=1 :2) 


main="pl 


O 〇 


ths,beside = TRUE, col=cm.colors (5), 
lot VADeaths with grid()") 


hs,beside = TRUE, col=cm.colors (5) 


r 
t VADeaths with griqd (NA,7,1ty=2,1lwd=1.5,col='green')") 


> griqd(NA,7,1ty=2, lwd=1.5,col="green") 


> Par (op) 


plot VADeaths with grid() plot VADeaths with grid(NA,7,lty=2,lwd=1.3,c0l='green') 
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Rural Male Rural Female Urban Male Urban Female Rural Male Rural Female Urban Male Urban Female 


图 3-12 ”通过 gid 函数 添加 网 格 线 


左 图 使 用 grid () 默认 参数 ， 同 时 绘制 水 平和 垂直 的 网 格 线 ， 颜 色 默 认 是 深 灰 色 ， 线 型 是 点 线 ; 右 图 不 绘制 垂直 网 格 线 (nx=NA) ， 绘 制 6 条 水 平 网 格 线 (ny=7) ， 线 型 为 虚线 ， 粗 细 为 默认 的 1.5 倍 ， 
颜色 为 绿色 。 


3.2.5 点 


通过 低级 绘图 函数 points 可 以 在 图 上 绘制 点 : 


Points (x, y = NULL, type = "p", http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompresseq/16401/OEBPSVText/...) 


使 用 这 个 函数 可 以 很 方便 地 在 已 有 的 图 上 加 点 。 人 参数 x 是 横 坐 标 位 置 ， 参 数 y 是 纵 坐 标 位 置 ， 可 以 设置 向 量 来 代表 多 个 点 的 位 置 。 参 数 type 有 9 种 取 值 ， 分 别 代表 不 同 的 样式 :“p "表示 画 点 ( 默 
认 ) ; "表示 画 线 ; “b" 表 示 同 时 画 点 和 线 ， 但 点 线 不 相交 ; “c "表示 将 type= "b "中 的 点 去 掉 ， 只 剩 下 相应 的 线条 部 分 ; “o" 表示 同时 画 点 和 线 ， 且 相互 重 者 (这 是 与 type="b "的 区 别 ) ; “h" 表 示 画 铀 垂 
线 ; “s "表示 画 阶梯 线 ， 从 一 点 到 下 一 点 时 ， 先 画 水 平 线 ， 再 画 垂 直线 ，"S "也 是 画 阶 梯 线 ， 但 从 一 点 到 下 一 点 是 先 画 垂直 线 ， 再 画 水 平 线 ; “n" 表 示 做 一 幅 空 图 。 大 部 分 “plot 函 数 的 参数 都 适用 于 points。 
最 常用 的 参数 是 col (设置 点 的 颜色 ) 、bg (设置 点 的 背景 色 ) 、pch (设置 所 绘制 的 符号 ) 、cex (设置 点 的 大 小 ) 和 lwd (设置 符号 边框 线条 的 宽度 ) 。 


创建 一 个 数据 对 象 data， 其 中 100 个 数据 服从 mean 为 0，sd 为 1 的 正 态 分 布 ， 另 外 3 个 点 服从 mean 为 4，sd 为 1 的 正 态 分 布 。 接 下 来 对 data 绘 制 箱 线 图 ， 并 利用 points 函 数 将 异常 值 用 黄色 点 标记 出 来 。 
执行 如 下 代码 得 到 的 结果 如 图 3-13 所 示 。 


图 3-13 ”通过 points 函 数 标识 异常 值 


> set.seed(1234) 

> data <- c(rnorm(100,mean=0, sd=1) ,rnorm (3,mean=4, sd=1)) # 创 建 数据 对 象 data 
> boxplot (data, col="violet",ylim=c (-4,5),outline=F) # 绘 制 箱 线 图 

> points (rep (1,3) ,data[101:103],pch=21,bg="yellow", cex=1 .2) # 标 识 异 常 值 


3.2.6 文字 


可 以 用 text 函 数 为 图 形 添 加 文字 。 其 调用 形式 为 : 


text (x, y = NULL, labels = seq along(xX)，agj = NULL, 
pos = NULL, offset = 0.5, vfont = NULL, 
cex = 1, col = NULL, font = NULL, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/...) 


其 参数 摘 述 如 表 3-7 所 示 。 


表 3-7 ” text 函数 的 常用 参数 


参 数 
X,Yy 
labels 


ad] 


pos 
offset 
vfont 
ER 
col 


font 


说 有明 
设置 文字 的 位 置 
字符 向 量 ， 设 置 放 到 图 表 中 的 文字 


数值 向 量 ， 有 一 个 或 两 个 值 ( 介 于 0 到 1 之 间 )。 如 果 设 置 的 是 一 个 值 ， 表 示 横 向 对 齐 。 如 果 
设置 了 两 个 值 ， 第 一 个 表示 横向 对 齐 ， 第 二 个 表示 纵向 对 齐 


数值 ， 设 置 文字 的 位 置 。pos=1 表示 下 方 ，pos=2 表示 左 侧 ，pos=3 表示 上 方 ，pos=4 表示 右 侧 
数值 ， 设 置 标签 的 偏 移 量 ， 单 位 是 字符 宽度 (只 有 使 用 了 pos 时 才 生 效 ) 

两 个 元 素 的 字符 向 量 ， 设 置 标签 的 字体 

设置 文字 的 大 小 

设置 文字 的 颜色 

设置 文字 的 字体 


如 果 想 将 图 3-13 中 的 异常 值 用 “异常 值 ” 文 字 标明 。 只 需要 增加 如 下 代码 即 可 ， 结 果 如 图 3-14 所 示 。 


> text (rep (1, 3) ,data[101:103] ,pos=4, label=paste0 ("异常 值 ", data[101:103]))#pos=4 表 示 在 右 侧 


图 3-14 通过 text 函 数 为 异常 值 添 加 文字 


3.2.7 线 


1.lines 函 数 绘制 曲线 


lines 函 数 可 以 在 已 有 图 形 中 添加 曲线 ， 使 用 格式 为 lines (x, y=NULL, type="I",，http://www.hzcourse.com/resource/readBook? 


path=/openresources/teach ebook/uncompressed/16401/OEBPS/Text/...) 。plot 函 数 的 很 多 参数 也 可 用 于 lines。 一 些 比较 有 用 的 参数 包括 lty (线条 类 型 ) 、|wd (线条 宽度 ) 、col (线条 颜色 ) 
等 。 


由 于 绘制 散 点 图 的 高 级 绘图 函数 plot 并 没有 add 参 数 ， 即 在 同一 绘图 窗口 中 不 能 使 用 两 个 plot 冰 数 ， 此 时 可 以 使 用 lines 函 数 。 


以 ggplot2 包 自 带 的 美国 经 济 数 据 economics 为 例 ， 先 利用 plot 函 数 绘制 个 人 储 蔓 率 随 时 间 变 化 的 时 序 图 ， 下 利用 lines 在 图 上 增加 一 周 内 平均 失业 持续 时 间 的 曲线 。 执 行 如 下 代码 得 到 的 结果 如 图 3-15 
所 示 。 


> data (economics, package = "ggplot2") 
> attach (economics) # 将 economics 加 载 到 内 存 
> plot (date, psavert, type="1", ylab="", ylim=c (0, 26)) # 绘 制 psavett 随 时 间 变 化 的 时 序 图 
> lines (date, uempmed, type="1", col="blue") # 绘 制 Uempmed 曲 线 ， 并 设置 为 蓝 色 
> detach (economics) # 将 economics 从 内 存 中 移 除 
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图 3-15 “通过 lines 函 数 在 图 上 添加 曲线 
2.abline 函 数 绘制 直线 


使 用 abline 遂 数 可 以 在 已 有 图 形 中 添加 参考 直线 。abline 遂 数 的 基本 形式 是 : 


abline(a = NULL, b = NULL, h = NULL, Vv = NULL, reg = NULL, 
coef = NULL, untf = FALSE, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/...) 


abline 函 数 的 参数 如 表 3-8 所 示 。 


表 3-8 abline 函 数 的 参数 描述 


a 直线 截 中 面 垂直 线 时 的 横 轴 值 
b 直线 的 斜率 reg 设置 一 个 带 coef 方 法 的 对 象 


用 限 数 coef 提取 系数 (包含 和 斜率 和 截 距 ) 


h 画 水 平 线 时 的 纵 轴 值 coef 的 R 对 象 


执行 以 下 代码 ， 将 在 散 点 图 上 增加 一 条 线性 拟 合 直 线 。 绘 制 的 结果 如 图 3-16 所 示 。 


attach (iris) 

# 绘制 一 幅 简 单 的 散 点 图 

plot (Petal .Length~Petal .Width) 

# 绘制 Petal .Length 变 量 均值 的 水 平 线 

abline (h=mean (Petal.Length) col="dgray60") 

# 绘制 Petal.Width 变 量 均值 的 竖 直 线 

abline (v=mean (Petal .Width),col="gray60") 

# 绘制 拟 合 直线 

abline (lm(Petal.Length~Petal .Wiqdth), 
Col="red", lwd=2, lty=3) 

detach (iris) 


MY 十 MYMYMMYMMYMMYMMYMMYSVYV 


Petal.Length 
4 


0.4 1.0 1 .4 2.0 2.4 
Petal.Width 


图 3-16 ”通过 abline 函 数 在 图 上 添加 直线 


3.3 ”高 级 绘图 消 数 


大 部 分 高 级 绘图 函数 均 有 add 参 数 (plot 函 数 没有 ) 。 如 果 add=FALSE (默认 ) ， 则 在 新 窗口 中 创建 一 个 图 形 ; 如 果 add=TRUE， 则 在 当前 活动 窗口 中 的 原 有 图 形 之 上 装 加 图 形 。 在 基础 包 中 ，R 提 供 
了 绘制 常见 图 形 的 功能 ， 包 括 散 点 图 、 气 泡 图 、 柱 状 图 、 饼 图 、 线 图 ， 也 提供 了 一 些 专业 的 统计 图 形 ， 如 茎 叶 图 、Q-Q 图 等 。 表 3-9 列 出 了 基础 包 中 可 以 绘制 的 一 些 图 形 。 


表 3-9 基础 包 中 可 以 绘制 的 常见 图 形 


3.3.1 


plot(x) 
plot(x,y) 
sunflowerplot(x,y) 
ple(X) 
boxplot(X) 
dotchart(x) 
mosaicplot(x) 
pairs(x) 

hist(x) 
barplot(x) 
qqnorm(X) 
qqplot(x,y) 
contour(x,y,z) 
Image(X,y,Z) 
Stars(X) 
Symbols(x,y,….) 


heatmap(x) 


散 点 图 


1. 散 点 图 


R 中 创建 散 点 图 的 基础 函数 是 plot (x，y) ， 其 中 x 和 y 是 数值 型 向 量 ， 代 表 图 形 中 的 (x，y) 点 。 如 果 样 本 变量 只 有 一 个 ， 则 需要 把 x 参数 设置 为 样本 数据 。 


描 述 
以 x 的 元 素 值 为 纵 坐 标 、 以 序号 为 横 坐 标 绘 区 
x (在 x 轴 上 ) 与 y (在 y 轴 上 ) 的 二 元 作 图 
同上 ,但 是 以 相似 坐标 的 点 作为 花 打 ， 其 花 沽 数目 为 点 的 个 数 
饼 图 
盒 形 图 (“box-and-whiskers”) 
如 果 x 是 数据 框 ， 则 作 Cleveland 点 图 ( 逐 行 逐 列 累加 图 ) 
列 联 表 的 对 数 线性 回归 残 差 的 马赛 殉 网 
直方 图 
正 态 分 位 ; 
y 对 x 的 分 位 数 
同上 ， 但 是 实际 数据 大 小 用 不 同色 彩 表 示 
星 状 图 


在 指定 的 (x,y) 坐标 上 绘制 气泡 图 、 方 形 图 、 星 形 图 、 温 度 计 图 和 箱 线 图 


热度 图 


下 面 通过 两 个 小 例子 来 演示 。 执 行 以 下 代码 得 到 的 结果 如 图 3-17 所 示 。 


ar (mfrow=c (1,2)) 


绘制 一 维 数据 


(mfrow=c (1,1)) 


morm(10) 


CN 


weight 
130 140 150 160 


120 


6 8 10 58 60 62 64 


Index 


图 3-17 ”通过 plot 函 数 绘制 散 点 图 


00 08 70 72 
height 


因为 左 图 绘制 的 是 一 维 数据 ， 所 以 将 数据 赋予 x 参数 ， 石 图 是 二 维 数据 ，R 将 women 数 据 框 的 第 一 列 变量 (height) 赋予 x 参 数 ， 第 二 列 变量 (weight) 赋予 y 参 数 ， 并 将 变量 名 作为 坐标 轴 标 签 。 


2. 散 点 图 矩阵 


散 点 图 矩阵 是 散 点 图 的 高 维 扩展 ， 它 从 一 定 程 度 上 克服 了 在 平面 上 展示 高 维 数据 的 困难 ， 在 展示 多 维 数据 的 两 两 关系 时 有 着 不 可 蔡 代 的 作用 。R 中 有 多 种 绘制 散 点 图 矩阵 的 函数 。plot 函 数 可 以 绘制 散 点 
图 和 矩阵， 此 外 基础 包 还 有 专门 绘制 散 点 图 矩阵 的 pairs 函 数 。 


当 把 超过 两 列 的 数据 框 赋予 plot 函 数 时 ， 就 可 以 绘制 散 点 图 和 矩阵。 以 萤 尾 人 花 数据 集 的 前 四 列 为 例 进行 演示 。 执 行 以 下 代码 ， 得 到 的 图 形 如 图 3-18 所 示 。 


> 坦 绘制 散 点 图 矩阵 
> plot (iris[,1:4] ,main=" 利 用 plot 阴 数 绘制 散 点 图 和 矩阵") 


利用 plot 了 负数 绘 制 艇 后 图 矩阵 


Sepal.Length 


5 $5 653 1.5 


1 234567 


4.5 5.5 0.3 7.5 1 2345 67 


图 3-18 ”通过 plot 吉 数 绘 制 散 点 图 矩阵 
从 散 点 图 矩阵 可 以 看 出 ， 变 量 Petal.Length 与 变量 Petal.Width 有 很 强 的 正 相 关 性 。 


也 可 以 利用 pairs 函 数 实现 图 3-18 的 效果 。 代 码 如 下 。 


al 


方法 一 
rs (iris[,1:4] /main=" 利 用 pairs 阴 数 绘制 散 点 图 和 矩阵") 


四 污 
airs (~Sepal.Length+Sepal .Width+Petal .Length+Petal .Width， 


# 
p 
# 
了 
dqata=irismain=" 利 用 paitrs 函 数 绘制 散 点 图 算 阵 ") 


> 
> 
> 
> 
十 
3.3.2 气泡 图 


散 点 图 一 般 只 能 较 好 地 展示 二 维 数据 ， 气 泡 图 则 是 在 其 基础 上 另外 通过 散 点 的 大 小 来 表达 第 三 维 变量 的 数值 。 同 样 ， 也 可 以 使 用 plot 函 数 绘制 气泡 图 ， 通 过 将 第 三 个 变量 赋予 参数 cex 来 控制 气泡 的 大 


小 。 


从 ggplot2 包 中 的 钻石 数据 集 diamonds 中 随机 抽取 500 个 样本 ， 绘 制 简单 气泡 图 进行 演示 。 执 行 以 下 代码 得 到 的 结果 如 图 3-19 所 示 。 


data ("diamonds",package = "ggplot2") 

# 随机 抽取 500 个 样本 

diamondsl1 <- diamonds[sample(l:nrow (diamonds),500),] 
attach (diamonds1) 

# 计算 钻石 体积 

volumn <— x*y*z 

# 把 钻石 体积 进行 归 一 化 处 理 ， 并 赋予 对 象 Size 

size <- (volumn-min (volumn))/ (max (volumn) -min (volumn)) 
# 绘制 气泡 图 


plot (carat, price, cex=size*2) 
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carat 
图 3-19 ”利用 blot 函数 绘制 气泡 图 


也 可 以 用 symbols 函 数 来 创建 气泡 图 。 该 函数 可 以 在 指定 的 (x，y) 坐标 上 绘制 圆圈 图 、 方 形 图 、 星 形 图 、 温 度 计 图 和 箱 线 图 。 以 绘制 圆圈 图 为 例 : symbols (x，y，circle=r) ， 其 中 x、y 和 circle 参 数 
是 需要 设置 的 向 量 ， 分 别 表示 x 轴 、y 轴 和 圆圈 半径 。 


现在 通过 一 个 小 例子 来 演示 。 执 行 以 下 代码 得 到 的 结果 如 图 3-20 所 示 。 


> x<-rnorm(10) 

> y<-rnorm(10) 

> r<-abs (rnorm(10)) 

> Symbols (x,y,circle = r, 

十 bg=rainbow (10)) 
3.3.3” 线 图 


设置 plot 函 数 的 type 参 数 ， 将 散 点 图 上 的 点 从 左 往 右 连 接 起 来 ， 就 会 得 到 一 个 线 图 。 在 绘制 线 图 时 ，type 参 数 可 以 设置 的 值 如 表 3-10 所 示 。 


执行 以 下 代码 ， 查 看 不 同类 型 线 图 的 效果 。 结 果 如 图 3-21 所 示 。 


-1.0 -0.5 0.0 0.5 1.0 
X 


图 3-20 ”利用 symbols 函 数 绘制 气泡 图 
表 3-10 ” 线 图 的 类 型 


| 表示 男 线 
b 表示 同时 画 点 和 线 ， 但 点 线 不 相交 
c 表示 将 type="b" 中 的 点 去 掉 ， 只 剩 下 相应 的 线条 部 分 
0 表示 同时 画 点 和 线 ， 且 相互 重 蔷 
s 表示 男 阶 梯 线 ， 从 一 操 到 下 一 点 时 ， 先 画 水 平 线 ， 青 夯 垂 直线 
S 也 是 画 阶 梯 线 ,但 从 一 点 到 下 一 点 是 先 夯 生生 线 ， 青 男 水 平 线 
_ type 一 | type=b type=ce 
” 
= 
+ 
N 
a 
type=0 
” oo o 
一 一 > 
- + - + - 二 
N N q 
| 二 6 8 10 | 二 6 8 10 2 二 6 8 10 
Index Index Index 


图 3-21 设置 不 同 type 参 数值 时 的 线 图 


plot (1:10,type=typelil,main=paste0 ("type=",type[i])) 


} 
par (mfrow=c (1,1)) 


3.3.4 ”柱状 图 


在 R 中 用 barplot 函 数 可 以 绘制 柱状 图 和 条 形 图 。barplot 函 数 的 主要 参数 如 表 3-11 所 示 。 


表 3-11 batrplot 函 数 的 主要 参数 


参 数 说 明 

ee 绘图 的 数据 ， 和 如果 绘制 一 组 数据 ， 则 以 问 量 形式 输入 ， 如 果 绘 制 多 组 数据 ， 则 以 矩阵 形式 
输入 ， 每 行 表示 一 组 数据 

horiz 如 有 果 是 FALSE (默认 )， 则 绘制 柱状 图 ， 如 果 是 TRUE， 则 绘制 条 形 图 

如 条 征 FALSE (默认 )， 则 不 同 组 数据 垂下 堆积 展示 ， 如 霖 是 TRUE， 则 不 同 组 数据 水 平 并 
列 展示 

width 数值 回 量 ， 表 示 柱 子 的 宽度 

names.arg 设置 各 个 柱子 (或 各 组 柱子 ) 名 称 的 字符 向 量 

add 惕 辑 值 ， 表 示 是 否 在 已 有 图 形 上 添加 柱子 


字符 向 量 或 逻辑 值 ， 如 果 设 置 的 是 多 辑 值 ， 图 例 就 用 height 的 行 名 称 来 设置 ， 如 果 设 置 的 
ee 是 字符 向 量 ， 图 例 中 就 使 用 设置 的 字符 向 量 


对 1940 年 弗吉尼亚 州 的 死亡 率 的 数据 VADeaths 绘 制 柱状 图 和 条 形 图 ， 通 过 参数 horiz 来 控制 。 执 行 如 下 代码 得 到 的 结果 如 图 3-22 所 示 。 


> par (mfrow=c (1,2)) 
> for(i in c(FALSE,TRUE))I{ 
barplot (VADeaths,horiz = i,beside = T,col = rainbow(5)) 


} 
par (mfrow=c (1,1)) 


由 于 多 个 柱子 水 平 并 列 展示 ， 所 以 需要 添加 图 例 方 便 解 读数 据 。 可 以 设置 legend.text 参 数 来 实现 。 执 行 以 下 代码 得 到 的 结果 如 图 3-23 所 示 。 


> barplot (VADeaths,beside = T,col = rainbow(5), 
十 legend.text = rownames (VADeaths) ) 


3.3.5 ”人 饼 图 


饼 图 为 一 个 由 许多 扇形 组 成 的 圆 ， 各 个 扇形 的 大 小 比例 等 于 变量 各 水 平 的 频数 比例 。 饼 图 比 条 形 图 简单 ， 描 述 比例 较 直 观 。 其 基本 形式 为 : 
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图 3-22 ”batplot 函 数 绘制 柱状 图 与 条 形 图 
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Rural Male Rural Female Urban Male Urban Female 
图 3-23 ”增加 图 例 说 明 的 柱状 图 
pie (x, labels=names (X) ，…) 
其 中 x 为 画图 的 非 负 数值 向 量 ，label| 为 生成 标签 表达 式 。 


如 果 想 查看 mtcars 数 据 集中 cyl 不 同 数值 的 占 比 。 执 行 以 下 代码 得 到 的 结果 如 图 3-24 所 示 。 


> pie (table (mtcars$cy1)) 


0 


图 3-24 ”使 用 pie 有 函数 绘制 饼 图 


3.3.6 直方 图 和 密度 图 


直方 图 是 定量 变量 常用 的 图 表 之 一 。 其 做 法 是 ， 把 横 坐 标 分 成 若干 通常 是 等 宽度 的 区 间 ， 然 后 计算 数据 在 各 个 区 间 上 的 频数 ， 并 在 各 区 间 上 画 出 高 度 与 数据 在 相应 区 间 的 频数 成 比例 的 矩形 条 。 纵 坐标 
当然 也 可 能 是 比例 而 不 一 定 是 频数 ， 但 这 并 不 改变 图 的 形状 ， 只 是 纵 坐 标 单位 的 不 同 。 可 以 使 用 hist () 函数 创建 直方 图 。 


hist 函 数 的 基本 形式 为 his (x，…) ，hist 国 数 的 主要 参数 如 表 3-12 所 示 。 


表 3-12 hist 汤 数 主要 参数 说 明 


x 数值 器 量 

breaks 用 于 控制 组 的 数量 

freq 右 为 FALSE， 则 表示 以 概率 密度 而 不 是 频数 绘制 图 形 
probability 右 为 TRUE， 则 表示 频率 而 不 是 频数 

nclass 改变 分 类 数 

density 和 angle 设置 柱 形 上 的 和 斜 线 

border 没 置 柱 形 边界 的 颜色 


下 面 举例 说 明 如 何 利用 hist () 绘制 直方 图 。 


对 ggplot2 包 自 带 的 美国 经 济 数据 economics 的 个 人 储 蔷 率 和 一 周 内 平均 失业 持续 时 间 绘 制 直方 图 。 对 psavert 和 uempmed 分 别 绘制 了 两 个 图 ， 一 个 有 较 少 的 区 间 ， 一 个 有 较 多 的 区 间 ， 可 以 很 清楚 
看 出 区 间 划 分 对 直方 图 的 影响 。 执 行 以 下 代码 得 到 的 结果 如 图 3-25 所 示 。 


> data (economics, package = "ggplot2") 

> attach (economics) # 将 economics 加 载 到 内 存 

> par (mfrow=c (2,2)) 

> hist (psavert, 8,xlab=" 个 人 储 壮 这", ylab=" 频 数 ", col="blue", 

main=" 个 人 储蓄 率直 方 图 ( 较 少 区 间 ) ") 

> hist (psavert, 30,XlLab=" 个 人 储 著 率 " ylab=" 频 数 ", col="blue", 

+ main=" 个 人 储 蔷 率 直方 图 ( 较 多 区 间 ) ") 

> hist (uempmed, 8,xlab=" 一 周 内 平均 失业 持续 时 间 ", ylab=" 频 数 ", col="green"， 
+ main=" 一 周 内 平均 失业 持续 时 间 ( 较 少 区 间 )") 

> hist (uempmed, 30,xlab=" 一 周 内 平均 失业 持续 时 间 ", ylab=" 频 数 ", col="green"， 
main=" 一 周 内 平均 失业 持续 时 间 ( 较 多 区 间 )") 

> par (mfrow=c (1,1)) 

> detach (economics) # 将 economics 从 内 存 中 释放 


有 一 种 与 直方 图 有 密切 关系 的 图 ， 即 密度 图 。 很 多 统计 学 家 都 建议 用 密度 图 代替 直方 图 ， 因 为 密度 图 更 容易 解读 。 首 先 要 用 density 水 数 计算 核 密度 估计 量 ， 然 后 用 plot 遂 数 画 出 估计 量 。 其 基本 形式 为 
plot (density (x) ) 。 


核 密度 图 经 常会 加 上 rug。rug 是 用 于 绘制 坐标 轴 密 度 线 的 函数 ， 实 际 上 就 是 在 坐标 轴 上 添加 一 条 图 形 ， 用 短线 段 表 示 一 个 点 。 


频数 
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50 
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个 人 储 琵 率直 方 图 ( 较 少 区 间 ) 个 人 储蓄 率直 方 图 ( 较 多 区 间 ) 


频数 
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频数 
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一 周 内 平均 失业 持续 时 间 一 周 内 平均 失业 持续 时 间 


图 3-25 ”使 用 hist 地 数 绘 制 直方 图 


继续 以 economics 为 例 ， 绘 制 个 人 储蓄 率 的 核 密度 图 ， 并 添加 轴 须 图 。 执 行 以 下 代码 得 到 的 结果 如 图 3-26 所 示 。 


> plot (density (economics$psavert)) 
> rug (economicsS$psavert) 


density.default(x=economics$psavert) 


Density 
0.00 0.02 0.04 0.06 0.08 0.10 0.12 


0 5 10 15 20 
N=$74 Bandwidth=0.7893 


图 3-26 ”绘制 核 密度 图 


3.3.1 QQ 图 


Q-Q (Quantile-Quantile) 图 会 将 样本 数据 的 分 布 与 理论 分 布 (通常 是 正 态 分 布 ) 做 比较 ， 即 Q-Q 图 会 画 出 样本 的 分 位 数 和 理论 分 布 的 分 位 数 。 如 果 样 本 数据 的 分 布 和 理论 分 布 一 致 ， 那 么 所 有 的 点 
都 会 在 从 左下 角 到 右上 和 角 的 45° 对 角 线 上 。Q-Q 图 可 以 有 效 地 判断 实际 分 布 和 期 望 分 布 的 差异 。 在 R 中 可 以 用 qqnorm 函 数 绘制 Q-Q 图 。 


继续 以 economics 为 例 ， 绘 制 个 人 储蓄 率 的 Q-Q 图 。 执 行 以 下 代码 得 到 的 结果 如 图 3-27 所 示 。 


> qqnorm(economics$psavert) 


Normal Q-Q Plot 


Sample Quantiles 
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Theoretical Quantiles 


图 3-27 绘制 Q-Q 图 


3.3.8” 箱 线 图 


箱 线 图 (又 称 盒 形 图 ) 通过 绘制 连续 变量 的 最 小 值 、 下 四 分 位 数 Q1 (第 25 百 分 位 数 ) 、 中 位 数 (第 50 百 分 位 数 ) 、 上 四 分 位 数 Q3 (第 75 百 分 位 数 ) 以 及 最 大 值 ， 描 述 连续 型 变量 的 分 布 。 它 是 由 一 个 
盒子 (box) 和 两 边 各 一 条 线 (whisker) 组 成 。 如 果 箱 线 图 是 竖 直 的 ， 那 么 盒子 上 下 边 分 别 代表 Q1 和 Q3， 显 然 ， 有 约 一 半 的 中 间 大 小 的 数据 值 藻 在 盒子 的 范围 内 。 在 盒子 中 间 有 一 条 线 ， 这 是 中 位 数 ， 盒 
子 的 长 度 等 于 上 下 四 分 位 数 之 差 ， 称 为 四 分 位 间距 或 四 分 位 极 差 (IQR) 。 在 1.5 倍 IQR 范 围 外 的 点 ， 箱 线 图 都 识别 为 异常 值 ， 故 箱 线 图 也 是 异常 值 王 别 常用 的 手段 之 一 。 在 R 基 础 包 中 用 boxplot 消 数 可 以 绘 
制 箱 线 图 。 


以 营 尾 化 数据 集 iris 为 例 ， 绘 制 伦 划 长度 按 照 物种 分 类 的 箱 线 图 。 执 行 以 下 代码 得 到 的 结果 如 图 3-28 所 示 。 


> boxplot (iris$Sepal.Length~iris$Species,col=rainbow (3)) 


可 见 ， 种 类 setosa 的 数据 整体 明显 低 于 其 他 两 个 种 类 ， 且 种 类 virginica 有 一 个 异常 点 ， 故 箱 线 图 也 是 用 来 识别 一 组 数据 是 否 有 异常 点 的 常用 方法 之 一 。 


6.0 03 7.0 73 8.0 


4.3 3.0 5.5 


setosa versicolor Vvirginica 


图 3-28 ”绘制 箱 线 图 
3.3.9” 茎 叶 图 


茎 叶 图 (stem-and-leaf plot) 在 数据 量 不 大 的 情况 下 ， 既 显示 了 完整 的 原始 数据 ， 又 显示 了 数据 分 布 的 状态 ， 它 像 一 片 带 有 长 短 不 一 的 叶子 的 茎 。 在 R 中 用 stem 函 数 绘 制 茎 叶 图 。 


以 汽车 数据 集 mtcars 数 据 的 汽车 重量 wt 为 例 进行 说 明 。 执 行 以 下 代码 。 


> stem(mtcars$wt) 
The decimal point is at the | 
5689 
123 
56889 
22224444 
55667888 
1 


ODOODDP 


334 


结果 中 的 第 一 行 115689 表 示 wt 数 据 有 1.5、1.6、1.8、1.9， 其 他 行 以 相同 方式 解读 。 


3.3.10 ”点 图 


点 图 提供 了 一 种 在 简单 水 平 刻 度 上 绘制 大 量 有 标签 值 的 方法 ， 可 以 用 dotchart 函 数 创建 点 图 。 其 基本 格式 为 : dotchart (x，labels=) 。 其 中 x 是 一 个 数值 向 量 ，labels 是 由 每 个 点 的 标签 组 成 的 向 量 。 


继续 以 汽车 数据 集 mtcars 的 每 加 仑 英里 数 mpg 数 据 为 例 进行 说 明 。 执 行 以 下 代码 得 到 的 结果 如 图 3-29 所 示 。 


> dotchart (mtcarsSmpg labels = rownames (mtcars)) 
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3.3.11 马赛 克 图 


10 15 20 25 30 


图 3-29 ”绘制 点 图 


马赛 克 图 常用 于 描绘 列 联 表 那样 的 数据 。R 基 础 包 中 的 mosaicplot () 函数 可 以 绘制 马赛 克 图 。 


以 Titanic 数 据 集 为 例 ， 它 包含 了 存活 或 者 死亡 的 乘客 数 ， 乘 客 的 船舱 等 级 、 性 别 以 及 年 龄 层 。 执 行 以 下 代码 ， 查 看 分 类 细 


> ftable (Titanic) 


Survived No Yes 


Class Sex Age 


lst Male Child 0 5 

Agduilt 118 57 

Female Child 0 ] 

Adult 4 140 

2nd Male Child 0 11 

Adult 154 14 

Female Child 0 13 

dult 13 80 

3rd ”Male Child 35 13 

dult 387 75 

Female Child 17 14 

Adult 89 76 

Crew Male Child 0 0 
Adult 670 192 

Female Child 0 0 

Adult 3 20 


执行 以 下 代码 绘制 马赛 克 图 ， 结 果 如 图 3-30 所 示 。 


> mosaicplot (Titanic) 


从 上 面 的 马赛 克 图 可 以 看 出 ， 大 部 分 孩子 都 处 在 二 等 舱 和 三 等 舱 ; 在 头等 舱 的 大 部 分 女性 都 存活 下 来 ， 而 三 等 舱 中 仪 有 一 半 女 性 存活 。 
除了 基础 包 中 的 mosaiplot 函 数 可 以 绘制 马赛 克 图 外 ，vcd 包 中 的 mosaic () 遂 数 也 可 以 绘制 马赛 克 图 ， 它 具有 更 多 扩展 功能 。 


同样 以 Titanic 数 据 集 为 例 ， 执 行 以 下 代码 得 到 的 马赛 克 图 如 图 3-31 所 示 。 


> library (vcd) 


载 入 需要 的 程 辑 包 : grid 
mosaic (Titanic,shade = T,legend = 7) 
LL 和 
Titanic 
Crew 
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图 3-30 ”利用 mosaicplot 骂 数 绘制 马赛 克 图 
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图 3-31 利用 mosaic 函 数 绘制 马赛 克 图 


扩展 的 马赛 克 图 添加 了 颜色 和 阴影 面积 来 表示 拟 合 模型 的 残 差 值 。 蓝 色 阴 影 表 明 ， 人 在 假定 生存 率 和 船舱 等 级 、 性 别 和 年 龄 段 无 关 的 条 件 下 ， 该 类 别 的 生存 率 通 常 超 过 预期 值 。 


3 7 


本 章 首先 学 些 了 如 何 向 简单 图 形 中 添加 各 种 图 形 元 素 ， 并 对 元 素 的 颜色 、 形 状 、 大 小 等 参数 进行 设置 ， 然 后 利用 R 的 高 级 绘图 函数 绘制 各 种 类 型 图 形 。 


第 4 章 ”高 级 绘图 工具 


高 级 绘图 工具 是 相对 于 R 的 基础 绘图 系统 而 言 的 ， 包 括 lattice 图 形 系统 、ggplot2 图 形 系统 以 及 各 类 交互 式 绘图 工具 。 


本 章 重点 介绍 由 lattice 包 和 ggplot2 包 生成 的 图 形 。 这 两 个 包 极 大 地 扩展 了 R 绘 图 的 范畴 ， 提 高 所 绘图 形 的 质量 。 本 章 最 后 还 会 介绍 交互 式 图 形 ， 与 图 形 实时 交互 可 以 加 深 对 数据 的 理解 ， 快 速 洞察 变量 
间 的 关系 。 


4.1 lattice 包 绘图 工具 


lattice 包 是 由 Deepayan Sarkar 基 于 grid 包 编写 的 一 套 统计 图 形 系统 ， 它 的 图 形 设计 理念 来 自 于 Cleveland 的 Trellis 图 形 。grid 图 形 系统 可 以 容易 控制 图 形 基础 单元 ， 给 予 编程 者 创作 图 形 极 大 的 灵活 
性 。lattice 包 通过 栅栏 (trellis) 图 形 对 多 元 变量 关系 进行 直观 展示 ， 为 单 变 量 和 多 变量 数据 的 可 视 化 提供 全 面 的 图 形 系统 。 一 些 用 标准 图 形 很 难 实现 的 功能 ，lattice 包 却 能 很 轻易 地 实现 。 本 节 介 绍 如 何 利 
用 lattice 包 创建 一 些 独特 而 实用 的 图 形 。 


4.1.1 绘图 特色 


与 plot 消 数 相 似 ，lattice 包 也 有 可 以 绘制 散 点 图 的 xyplot 溯 数 。 与 plot 浮 数 不 同 的 是 ， 它 的 绘制 对 象 是 一 个 表达 式 y~x。 


下 面 构建 一 个 简单 的 数据 集 ， 用 lattice 包 中 的 xyplot 函 数 绘制 散 点 图 ， 结 果 如 图 4-1 所 示 。 


d <- data.frame (x=seq (0,14),y=seq(1,15),z=rep(c("a", "pb","c"),times=5)) 


f(!require(lattice)) install.packages ("lattice") 
xyplot (y~x, data=d) 


Ei 


10 


rr 


图 4-1 简单 散 点 图 
1. 图 形 参 数 


基础 绘图 需要 设置 参数 来 绘制 漂亮 的 图 形 ， 而 lattice 包 将 默认 的 图 形 参数 包含 在 一 个 很 大 的 列表 对 象 中 ， 可 以 不 用 设置 参数 。lattice 包 的 图 形 参数 可 通过 trellis.par.get () 函数 来 获取 ， 并 用 
trellis.par.set () 国 数 来 修改 。show.settings () 函数 可 展示 当前 的 图 形 参 数 设置 情况 。 


如 果 希 望 查 看 所 有 设置 的 列表 ， 可 以 调用 不 带 参 数 的 trellis.par.get 函 数 。 


> names (trellis.par.get()) 


[1] "grid.pars" "fontsize" "background" 

[4] "panel.background™" "clip" "add.1line" 

[7] "add.text" "plot .polygon" "box.dot" 

L0] "box.rectangle" "box.umbrella" "dot .line" 

3] "dot.symbol" "plot.1line" "plot.symbol" 
[16] "reference.line" "strip.background" "strip.shingle" 
[19] "strip.border" "superpose.1line" "superpose.symbol" 
22] "superpose.polygon" "regions" "shade.colors" 
[25] "axis.line" "axis.text" "axis.components" 
[28] "layout.heights" "Jayout .widths" "box.3d" 
[31] "par.xlab.text" "par.ylab.text" "par.zlab.text" 
[34] "par.main.text" "par.sub.text" 


比如 通过 trellis.par.get ("axis.text") 命令 查看 坐标 轴 刻 度 值 的 参数 设置 。 现 在 想 将 坐标 轴 的 刻度 值 放 大 1.5 信 ， 且 颜色 修改 为 蓝 色 。 结 果 如 图 4-2 所 示 。 


> op <- trellis.par.get() 

> trellis.par.get ("axis.text") 
$alpha 
LL] 1 
$cex 
[1] O58 


$ 

[1] "#000000" 
$font 
$ 


Slineheight 


trellis.par.set (list (axis.text=]list (cex=1.5, col= "blue"))) 
xyplot (y~x, data=d) 
trellis.par.set (op) 


V VYV 一 


0 5 10 


和 XX 


图 4-2 ”修改 坐标 轴 刻 度 值 的 展示 


或 者 ， 调 用 函数 show.settings 图 形 化 显示 所 有 的 设置 ， 这 种 方式 更 好 ， 如 图 4-3 所 示 。 


show.settings () 


oooooo o CC} 
ooooooo = 
ooooooo 下 一 一 
ooooooo 一 一 一 一 一 一 
ooooooo 一 一 
ooooooo 3 
ooooooo EE 
superpose.symbol superpose.line strip.background 
oild 
Hel 
x.[dot. rectangle. umbrellal add.[line, text] reference. line plot.[symbol. jine] plot.shingle[plot.polygon| 
histogram[plot.polygon] barchart[plot.polygon| superpose.polygon regions 


图 4-3 ”show.settings 的 示例 


lattice 图 形 参数 是 有 层次 的 ， 可 以 将 它们 看 作 列 表 的 列表 。 共 有 34 个 高 级 参数 组 来 描述 作 图 时 用 到 的 不 同 元 素 。lattice 包 不 是 通过 形状 区 分 不 同 组 别 ， 而 是 通过 不 同 的 颜色 。 现 在 想 将 点 都 设置 为 黑 
色 ， 通 过 形状 来 区 分 不 同 组 别 的 点 。 执 行 以 下 代码 ， 图 形变 化 如 图 4-4 与 图 4-5 所 示 。 


xyplot (y~x, groups=z, data=d) 
ysettings <- trellis.par.get() 
ysettings$superpose.symbol$col 
"#0080ff" Ww#f£f00ff£" "darkgreen™ "#ff0000" "orange" "#00ff00" "brown™" 
ysettings$superpose.symbols$pch 
gd i sd Le | 


ysettings$superpose.symbols$pch <- 1:10 
mysettings$superpose.symbol$col <- "black" 
trellis.par.set (mysettings) 

xyplot (y~x, groups=2z, data=d) 
trellis.par.set (op) 


入 


图 4-4 默认 分 组 方式 


0 10 


入 


图 4-5” 自 定义 的 分 组 方式 


2. 条 件 变 量 


lattice 包 绘图 工具 的 一 个 强大 之 处 ， 在 于 可 以 添加 条 件 变 量 ,创建 出 条 件 变 量 各 个 水 平 下 的 面板 。 条 件 变 量 的 设置 通常 不 超过 两 个 。 一 般 情况 下 ， 条 件 变量 是 因子 型 变量 ， 若 条 件 变 量 为 连续 型 ， 则 需 
要 先 将 连续 型 变量 转换 为 离散 变量 ， 再 将 其 设置 为 条 件 变量 。 添 加 条 件 变 量 v 的 方式 为 : 


graph function (formulalv,data=,options) 


对 数据 集 d， 增 加 条 件 变 量 z， 对 x 和 y 变 量 绘制 分 组 散 点 图 ， 结 果 如 图 4-6 所 示 。 


> xyplot (y~x|z,data=d, layout=c (3,1)) 


3. 面 板 函 数 


在 lattice 包 中 ， 每 个 高 级 绘图 函数 都 调用 了 一 个 默认 的 函数 来 绘制 面板 ， 如 xyplot () 函数 默认 的 绘图 函数 为 panel.xyplot。 这 些 默 认 的 函数 服从 命名 惯例 : panel.graph_function， 其 中 
graph_function 是 该 水 平 绘图 消 数 。 


此 外 ， 还 有 对 面板 定义 或 者 增加 外 观 细节 的 低级 面板 函数 ， 如 表 4-1 所 示 ， 这 些 国 数 可 以 为 lattice 图 形 添 加 线 、 文 本 或 者 其 他 图 形 元 素 。 可 以 使 用 自 定义 函数 著 换 默认 的 面板 函数 ， 也 可 将 lattice 包 中 的 
50 多 个 默认 面板 中 的 某 个 或 多 个 整合 到 自 定 义 的 函数 中 。 自 定义 面板 函数 具有 极 大 的 灵活 性 ， 可 随意 设计 输出 结果 满足 要 求 。 


国 数 
panel.abline 
panel.curve 
panel.rug 
panel.mathdensity 
panel.average 
panel.fill 
panel.erid 
panel.loess 
panel.lmline 
panel.refline 
panel.qqmathline 


panel.violin 


X 


图 4-6” 带 有 分 组 变量 的 散 点 图 
表 4-1 低级 面板 函数 说 明 


描 述 
在 面板 的 图 表 区 域 增加 线 
在 面板 的 图 表 区 域 增加 曲线 
在 面板 上 增加 轴 须 
给 定 分 布 孙 数 ,绘制 概 率 分 布 图 
按照 因子 变量 ,绘制 平均 值 
对 面板 填充 具体 的 颜色 
绘制 网 格 线 
增加 一 条 光滑 曲线 
为 数据 增加 一 条 回归 线 
在 面板 的 图 表 区 增加 一 条 线 
在 样本 和 理论 分 布 的 25 分 位 点 和 75 分 位 点 加 一 条 线 
绘制 小 提琴 图 ， 通 常用 于 箱 线 图 


假如 要 在 图 4-5 上 加 一 条 对 角 线 ， 可 以 通过 创建 新 的 定制 面板 函数 来 实现 ， 它 们 都 调用 panel.xyplot 和 panel.abline 函 数 。 设 置 panel.abline 函 数 中 的 参数 a=1 和 b=1， 将 得 到 一 条 截 距 为 1， 和 斜率 为 1 的 
直线 ， 结 果 如 图 4-7 所 示 。 


mypanel <- function (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/...){ 
panel .abline (a=1, b=1) 
panel .xyplot (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/...) 


} 
xyplot (y~x|z,data=d, layout=c (3,1), 
panel=mypanel1) 
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图 4-7 ”定制 面板 函数 的 散 点 图 
4. 分 组 变量 
通过 添加 条 件 变量 ， 可 以 创建 出 条 件 变量 各 个 水 平 下 的 面板 。 若 想 要 把 不 同 水 平 的 图 形 结果 亚 加 到 一 起 ， 则 可 以 将 变量 设 定 为 分 组 变量 。 


分 组 变量 v 的 设 定格 式 为 : 


graph function (formula,data=,qroups=v) 


以 mtcars 数 据 集 为 例 绘制 分 组 密度 图 ， 结 果 如 图 4-8 所 示 。 


densityplot (~mpg,data=mtcars, lty=1:2,col=1:2,1wd=2, 
groups=factor (am), 


> 

十 

十 main=]list ("MPG Distrubution by Tranamission Type" cex=1.5)， 
朱 xlab="Miles per Gallon", 

十 key=1list (column=2, 
十 
十 
十 
十 


space="bottom", 

title="Transmission (0 = automatic, 1 = manual)", 
text=1list (levels (factor (mtcars$am) ) ) ， 

lines=1ist (lty=1:2,col=1:2,1wd=2))) 


MPG Distrubution by Tranamission Type 
0.10 


0.08 


0.02 


0.00 


Miles per Callon 


Transmission (0=automatic, 1=manual) 
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图 4-8 ”以 am 为 分 组 变量 的 核 密度 图 

用 不 同 的 线条 样式 表示 cyl 的 类 型 :0 是 实 线 ，1 是 虚线 ， 并 且 添 加 了 图 例 的 标题 ， 说 明 0、1 分 别 代 表 的 含义 ， 最 后 将 图 例 放置 在 底部 。 

5. 页 面 摆 放 

lattice 包 不 能 识别 par () 设置 ， 需 要 新 的 方法 完成 页 面 摆 放 。 最 简单 的 方法 是 先 将 lattice 图 形 存储 到 对 象 中 ， 然 后 利用 plot 函 数 中 的 split= 和 position= 选 项 来 控制 。 
split 的 4 个 选项 将 页 面 分 割 为 一 个 指定 行 数 和 列 数 的 矩阵 ， 然 后 将 图 形 放置 到 该 矩阵 中 。 这 4 个 选项 分 别 为 : 图 形 所 处 的 列 、 图 形 所 处 的 行 、 列 的 总 数 、 行 的 总 数 。 


以 mtcars 数 据 集 为 例 ， 执 行 以 下 代码 得 到 结果 如 图 4-9 所 示 。 其 中 左 图 绘制 的 是 车 身 重 量 与 每 加 仓 汽油 行驶 英里 数 的 散 点 图 ， 右 图 是 按照 行驶 距离 进行 分 面板 的 散 点 图 。 


> graphl <- xyplot (mpg~wt,data=mtcars,xlab="Weight",ylab="Miles Per Gallon") 

> displacement <- equal.count (mtcars$disp,number=3,overlap=0) 

> graph2 <- xyplot (mpg~wt|displacement,data=mtcars,1layout=c (3,1), 
xlab="Weight",ylab="Miles Per Gallon") 

plot (graph]l, split=c (1,1,2,1)) 

plot (graph2 split=c (2,1,2,1),newpage = FALSE) 


V V 十 


Position 的 4 个 选项 将 页 面 看 成 一 个 x-y 坐 标 系 的 矩形 ，x 轴 和 y 轴 的 范围 都 在 0，1] 区 间 ， 和 拢 形 的 左下 角 坐 标 是 原点 (0，0) ， 右 上 角 是 (1，1) 。 这 4 个 选项 分 别 是 图 形 左 下 角 和 右 下 角 的 坐标 值 。 执 行 
下 面 代 码 得 到 与 图 4-8 效 果 相 同 的 图 形 。 


O 


t(graphl,position = c(0,0, 2 
t (graph2,position=c(0.5,0,1,1), 


VV 
oD 
© 


) ) 
newpage = FALSE) 


Miles Per Callon 


Miles Per Callon 


2 十 3 
Weight 


图 4-9 


4.1.2 ”基本 图 形 


Weight 


同一 页 面 的 散 点 图 和 添加 条 件 变 量 的 散 点 图 


lattice 包 绘图 工具 用 于 绘制 各 种 函数 图 形 ， 包 括 生 成 单 变量 图 形 (点 图 、 核 密度 图 、 直 方 图 、 柱 状 图 和 箱 线 图 ) 、 双 变量 图 形 ( 散 点 图 、 带 状 图 和 平行 箱 线 图 ) 和 多 变量 图 形 (三 维 图 和 散 点 图 矩 


阵 ) 。 


各 种 高 级 绘图 函数 都 服从 以 下 格式 : 


graph 


function (formula, data=, options) 


其 中 ，formula 为 函数 形式 即 图 形 表 达 式 ，data 为 对 应 的 数据 集 ，options 为 各 种 绘图 时 的 选项 ， 用 于 设置 图 形 的 格式 和 标注 等 。 


lattice 包 的 函数 如 表 4-2 所 示 。 


表 4-2 lattice 包 的 学 数 


函 数 名 函数 功 和 有 


barchart 条 形 图 


densityplot 核 密 度 图 
stripplot 市 状 图 


attice 包 中 的 大 部 分 绘图 函数 参数 选项 都 是 相同 的 、lattice 包 中 绘图 函数 的 常用 参数 如 表 4-3 所 示 。 


表 4-3 ”lattice 包 绘图 吕 数 好 


数据 类 型 
数组 、 表 达 式 、 和 矩阵 、 数 值 型 向 量 、 表 格 
数组 、 表 达 式 、 和 矩阵 、 数 值 型 器 量 、 表 格 
因子 、 表 达 式 、 数 信 型 回 量 
表达 式 、 数 人 型 四 量 
表达 式 、 数 值 型 呵 量 


data 


allow.multiple 


outer 


box.ratio 


horizontal 


panel 
aspect 


groups 


auto.key 
prepanel 


strip 
xlab 、ylab 


scales 


1. 条 形 图 


描 述 
要 绘制 的 对 象 ， 可 以 是 表达 式 、 数 组 、 数 值 型 回 量 或 者 表格 
当 x 是 表达 式 时 ，data 是 困 数 要 调用 的 一 个 数据 框 


说 明 如 何 解释 形 如 Yi 二 Y: 一 XIZ(X、Z 都 可 能 是 多 元 变量 的 函数 ) 的 公式 。allow. 
multiple=TRUE 为 默认 状态 ,lattice 遇 数 将 在 同一 个 面板 上 重合 绘制 YI 一 XlZ 和 
Y2~ 一 XIZ; 如 果 allow.multiple=FALSE， 将 绘制 (Yi 十 Y) 一 XI|Z 


当 allow.multiple=TRUE 以 及 制定 多 个 因 变 量 时 ， 指 定 是 否 使 用 闭 加 图 。outer=FALSE 
时 ,绘制 琶 加 图 ; outer=TRUE 时 ， 图 形 在 不 同 的 面板 展示 


数值 ， 对 于 以 矩形 图 显示 数据 的 困 数 bwplot、barchart 和 stripplot， 指 定 内 部 算 形 空间 
的 长 觉 比 


逻辑 值 ， 在 bwplot、dotplot、barchart 和 stripplot 中 指定 图 形 放 置 的 方 回 : 水 平 或 垂直 
用 户 绘制 的 一 个 面板 明 数 


指定 不 同 面板 的 宽 高 比 。 默 认 情 况 下 aspect="fill"， 填 充 可 用 空间 ; aspect="xy"， 表 示 
使 用 Cleveland 45"” banking 法 则 来 计算 宽 高 比 ; aspect="iso"， 表 示 等 跑 比例 


指定 传递 给 面板 郧 数 摘 述 数据 分 组 的 变量 
逻辑 值 ， 添 加 分 组 变量 的 图 例 符 号 (变量 key 和 legend 会 覆盖 auto.key 的 值 ) 


国 数 ， 其 参数 与 图 数 panel 相同 ， 返 回 一 个 列表 ， 其 中 包括 xlim、ylim、dx 和 dy (以 
及 相对 少见 的 xat 和 yat ) 


逻辑 值 ， 指 定 标签 面板 是 否 需要 绘制 
指定 x 轴 、y 轴 标 签 的 字符 值 
列表 ， 指 定 x 轴 、y 轴 需 要 怎样 绘制 


attice 包 使 用 barchart 函 数 绘制 条 形 图 和 柱状 图 (将 horizontal 参 数 设置 为 FALSE) ，barchart 绘 制 条 形 图 有 如 下 两 种 方法 : 


barchart (table,:…) 


barchart (formula, data=data.frame,:…) 


默认 情况 下 ， 通 过 面板 函数 panel.barchart 来 生成 和 调整 barchart 图 形 。 


利用 R 自 带 的 泰坦 尼克 号 乘客 生存 的 数据 集 Titanic 绘 制 条 形 图 ， 对 Titanic 数 据 集 进 行 数据 分 析 。 利 用 str 函 数 查 看 数据 结构 : 


> Str(TitLanic) 


table [1:4, 1:2, 1:2, 1:2] 0035000 17 0 118 154 nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 
F 4 


— attr(*, "dimames")=List of 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/..$ Class : chr [1:4] "1st" "2ndq" "3rd" "Crew" 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/..$ Sex : chr [1:2] "Male" “Female" 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/..$ Age : chr [1:2] “Child™ “Adult" 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/..$ Survived: chr [1:2] "No" "Yes" 


从 上 面 的 结果 可 知 ，Titanic 是 一 个 四 维 列 联 表 ， 由 4 个 变量 Class、Sex、Age 和 Survi-ved 组 成 。 由 于 barchart 可 以 直接 对 table 类 型 绘制 条 形 图 ， 所 以 执行 以 下 代码 ， 画 出 的 条 形 图 如 图 4-10 所 示 。 


>barchart (Titanic,layout=c (4,1) ,auto.key=TRUE) # 对 table 类 型 画 出 条 形 图 ，data 参 数 不 用 设置 


将 layout 参 数 设置 为 c(1，4) ， 可 以 将 面板 摆 放 位 置 变 成 1 行 4 列 ， 将 auto.key 参 数 设置 为 TRUE， 输 出 图 例 。 从 图 4-10 可 以 看 出 ， 坐 头等 舱 的 成 年 女性 存活 率 最 高 ， 


， 人 存活 的 成 年 女性 是 140 人 ) 。 


达到 92.2% (死亡 成 年 女性 是 4 


从 图 4-10 中 发 现 ， 成 年 人 (adult) 的 人 数 远 多 于 小 孩 (child) ， 可 以 将 scales 参 数 设置 为 Xx= "free "来 优化 条 形 图 ， 提 高 图 形 的 可 读 性 。 执 行 以 下 代码 ， 得 到 的 条 形 图 如 图 4-11 所 示 : 


> barchart (Titanic,layout=c (4,1), 
十 


auto. key=TRUE, scales=list (x="free") ) # 将 x 轴 坐标 设置 为 free 


No 


Yes I 


0 200 400 600 800 


Crew 


0 200 400 600 800 


3rd 


2nd 


1st 


0 200 400 600 800 


0 200 400 600 800 
Freq 


图 4-10 ”对 table 类 型 Titanic 数 据 绘 


会 制 条 形 图 


Crew 


Child Child 


EN 


3rd 
2nd 
lst 


0 10 20 30 40 500 


30 0 200 400 600 800 0 
Freq 


也 可 以 将 表格 数据 Titanic 转 换 成 数据 框 ， 然 


图 4-11 


> barchart (Class~Freqg|Sext+Age, data=as .da 
十 


100 
将 x 轴 坐 标 设置 为 free 绘 制 的 条 形 图 
数 x 来 指定 表达 式 ， 参 数 data 指 定数 据 框 的 方式 来 绘制 条 形 图 。 


7 一 
groups=Survived, stack=TRU 
auto. key=TRUE 


计生 
rame (Titanic) 
E, layout=c (4,1), 
FE, scales=list (x="free")) 


运 傈 


以 下 代码 绘制 和 图 4-10 相 同 的 条 形 图 


, 三 
groups=Survived, stack=TRU 
十 


rame (Titanic) 
E, layout 
auto. key=1list (title="Survived",columns=2) 
scales=1]ist (x="f 


调整 auto.key 参 数 ， 可 以 给 图 例 增加 标题 和 改变 其 排列 方式 。 例 如 ， 增 加 图 例 标 题 "Survived"， 并 将 图 例 排列 变 成 一 行 两 列 ， 可 以 
> barchart (Class~Freq|Sext+Age, data=as .data 

十 二 =cC (4,1), 

未 

free")) 


运行 


以 下 代码 实现 ， 结 果 如 图 4-12 所 示 


Survived 


No [| Yes [| 


i Child 
a nal = Ms id 


Crew 
3rd 
2nd 

lst 


10 20 30 40 S500 30 0 200 400 600 800 0 100 
Freq 


图 4-12 ”增加 图 例 标 题 并 设置 为 1 行 两 列 摆 放 的 条 形 图 


可 以 存储 和 操作 lattice 包 中 的 高 函数 生成 的 图 形 。 例 如 : 


mygraph <- barchart (Class~Freq|Sext+Age,data=as.data.frame (Titanic), 
groups=Survived, stack=TRUE, layout=c (4,1), 
auto. key=1list (title="Survived",columns=2), 
scales=1list (x="free")) 


十 十 十 V 


以 上 代码 创建 了 一 个 栅栏 图 ， 并 存储 在 mygraph 对 象 中 。 但 是 此 时 不 会 展示 任何 图 形 ， 只 有 调用 plot (mygraph) (或 print (mygraph) 、mygraph) 时 才 会 展示 图 形 。 


另外 ， 可 以 使 用 update () 函数 来 修改 lattice 图 形 对 象 。 例 如 ， 再 对 mygraph 对 象 增加 垂直 网 格 线 ， 并 将 条 形 边框 设置 为 透明 色 ， 可 以 利用 update () 函数 修改 面板 参数 Panel 实 现 。 执 行 以 下 代码 可 
得 到 图 4-13 所 示 的 条 形 图 。 


> update (mygraph, 

十 panel=function (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/...){ 

十 panel .grid (h=0, v=-1) 

十 Panel1.barchart (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/O0EBPS/Text/...,border="transparent") 
由 }) 


二 A 


点 图 提供 了 一 种 在 简单 水 平 刻度 上 绘制 大 量 有 标签 值 的 方法 。 可 以 使 用 dotplot () 函数 创建 点 图 。 和 barchart 一 样 ，dotplot 默 认 通 过 公式 和 数据 框 指定 数据 。 


dotplot (x, data, groups=TRUE,:…, horizontal=TRUE) 


Survived 


No [E Yes Ed 


Child Child 
Male | Female | Male | Female 


Crew 
3rd 
2nd 
lst 


0 10 20 30 40 30 0 30 0 200 400600 8000 50 100 130 
Freq 


图 4-13 ”增加 重 直 网 格 线 ， 并 将 条 形 边 框 设 置 为 透明 色 的 条 形 图 


以 1940 年 弗吉尼亚 州 记录 的 每 1000 人 死亡 率 数据 集 VADeaths 为 例 ， 绘 制 点 图 分 析 不 同年 龄 段 不 同人 群 的 死亡 率 。 执 行 以 下 代码 得 到 如 图 4-14 所 示 的 分 组 点 图 。 


> dotplot (VADeaths,pch=1:4,col=1:4, 

十 main = list("Death Rates in Virginia - 1940" cex=1.5)， 
十 xlab = "Rate (per 1000)", 

+ key=1list (column=4, 

十 text=]1st (colnames (VADeaths) ) ， 

十 points=list (pch=1:4,col=1:4))) 


Death Rates In Virgin1a-1940 


Rural Male o Rural Female 和 Urban Male + Urban Female x 
70-74 
65-69 
60-64 
55-59 
50-54 
20 40 60 


Rate (per 1 000) 


图 4-14 ”对 VADeaths 数 据 集 绘制 分 组 点 图 


为 了 提高 图 形 的 可 读 性 ， 在 图 4-14 中 增加 了 主 标题 和 x 轴 标 题 ， 并 对 不 同人 群 用 不 同 的 颜色 和 符号 区 分 ， 最 后 通过 key 参 数 设 置 图 例 的 样式 和 摆 放 方式 。 从 图 4-14 中 可 知 ， 男 性 死亡 率 高 于 女性 ， 其 中 城 
市 男性 死亡 率 又 高 于 乡村 男性 。 


将 参数 groups 设 置 为 FALSE， 可 以 画 出 面板 图 ， 执 行 以 下 代码 得 到 如 图 4-15 所 示 的 面板 点 图 。 


> dotplo 0 aths gro = FALSE, 
十 站 st ath Rates in Virginia - 1940" cex=1.5)， 
和 "Rate 1000)") 


Death Rates in J 


Urban Male Urban Female 


Rural Male Rural Female 


Rate (per 1 000) 


图 4-15 ”对 VADeaths 数 据 集 绘制 面板 点 图 


从 图 4-15 可 知 ， 不 同人 群 都 存在 相同 的 规律 ， 即 死亡 率 随 着 年 龄 的 增长 而 增 大 。 也 可 以 调整 type 参 数 来 美化 图 4-15。 执 行 以 下 代码 得 到 图 4-16 所 示 的 面板 点 图 。 


> dotplot (VADeaths, groups = FALSE, 
十 layout=c(1,4),aspect = 0. 
igi 0, type ("p", "h") 
Im lis Death Rates g 1940 .3) 
lab "Ra (per 1000)") 


10—174| 
65—69 
60—64 
33 一 39 
530—34 


Urban Male ] 


70—74 


65-—-69| 一 一 一 一 
60-64| 一 一 一 一 一 * 


55-59| 一 一 


50-54|- 一 一。 


Rural Female 


70—74 
65—69 
60—64 
35—59 
S50—534 


| Rural Male 
70—74 


65_69 
60-64 
55-59 
50-54 


0 20 40 60 
Rate (per 1 000) 


图 4-16 ”调整 type 参 数 绘制 的 面板 点 图 
3, 直 方 图 
直方 图 通过 在 x 轴 上 将 值 域 分 割 为 一 定数 量 的 组 ， 在 y 轴 上 显示 相应 值 的 频数 ， 展 示 连 续 型 变量 的 分 布 。 在 lattice 包 中 绘制 直方 图 可 以 使 用 histogram 函 数 。 


nutshell 包 中 的 births2006.smp 路 据 集 ， 包 含 了 2006 年 美国 出 生 人 口 数据 10% 的 样本 ， 每 一 条 记录 有 13 个 变量 。 通 过 install.packages (“nutshell”) 安装 后 就 可 以 利用 该 数据 集 。 


以 births2006.smpl 数 据 为 例 ， 利 用 直方 图 查看 不 同 胎 数 下 婴儿 的 平均 重量 。 执 行 以 下 代码 可 得 到 图 4-16 所 示 的 直方 图 。 


library (lattice) 

library (nutshell) 

data (births2006.smpl) 

histogram (~DBWT | DPLURAL, data=births2006.smpl, 
main="Births in the United States, 
2006"™, 

xlab="Birth weight, in grams") 


+ VVYVvVYV 


一 


由 图 4-17 可 知 ， 从 单 胞 胎 到 多 胞 胎 ， 婴 儿 的 平均 重量 是 减少 的 。 为 了 更 方便 地 比较 不 同 的 组 ， 可 以 通过 layout 参 数 将 图 形 垂 直 堆 积 起 来 。 执 行 以 下 代码 得 到 图 4-18 所 示 的 直方 图 。 


> histogram (~DBWT | DPLURAL, data=births2006.smp1, ayout=c(1v5)， 
十 main="Births in the United States, 2006", 
十 xlab="Birth weight, in grams") 


4. 核 密度 


网 


如 果 想 用 一 条 线 而 不 是 通过 一 组 和 矩形 块 来 展示 连续 型 变量 的 分 布 ， 可 以 选择 核 密度 图 。 在 lattice 包 中 ， 核 密度 图 可 以 用 densityplot 函 数 来 绘制 。 


对 于 前 面 的 直方 图 所 展示 的 数据 ， 此 处 改 用 密度 图 来 说 明 。 上 默认 情况 下 ，densityplot 会 在 每 个 图 的 下 面 绘制 一 个 带 状 图 来 展示 每 一 个 数据 点 。 但 是 ， 由 于 本 例 中 的 数据 集 非常 大 (427 432 个 观测 


值 ) ， 因 此 设置 plot.points=FALSE， 不 绘制 数据 点 。 执 行 以 下 代码 得 到 图 4-19 所 示 的 密度 图 。 


> densityplot (~DBWT | DPLURAL, data=births2006. smpl, 
十 layout=c (1, 5) ,plot .points=FALSE, 
十 main="Births in the United States, 2006", 
十 xlab="Birth weight, in grams") 


相 比 直方 图 ， 密 度 图 的 一 个 优势 是 可 以 在 彼此 上 方 堆放 ， 而 县 结果 更 有 可 读 性 。 将 条 件 变量 (DPLURAL) 改 为 分 组 变量 ,可 以 将 这 些 图 依次 雹 放 。 通 过 时 加 的 图 ， 很 容易 就 可 以 比较 不 同 分 布 的 形状 
(和 它们 的 中 心 点 ) 。 执 行 以 下 代码 可 得 到 图 4-20 所 示 的 世 加 密度 图 。 


densityplot (~DBWT, groups=DPLURAL, data=births2006.smpl, 
plot. Po te DAL Ly Lo ool ls or lw LS 
main="Births in the United States, 2006", 
xlab="Birth weight, in grams", 

key=1list (column=3, 

text=list (levels (births2006.smpl$DPLURAL) ) ， 
lines=1list (lty=1:5,col=1:5))) 


> 
十 
十 
十 
十 
平 


Births in the United States, 2006 
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图 4-17 不 同 胎 数 的 婴儿 出 生 时 重量 的 直方 图 


Births in the United States, 2006 


Pereent of Total 
口号 总 凶 目 


-ae 


0 2 000 4 000 6 000 38000 
Birth weight, in grama 


图 4-18 ”不 同 胎 数 的 婴儿 出 生 时 重量 的 直方 图 (垂直 堆积 ) 
5. 带 状 图 


当 数 量 不 多 时 ， 可 以 采用 带 状 图 代替 直方 图 来 展示 数据 ， 可 以 认为 带 状 图 是 一 维 的 散 点 图 。 在 lattice 包 中 ， 通 过 stripplot 函 数 绘制 带 状 图 。 
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S$ 0.0010 
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图 4-19 不同 胎 数 的 婴儿 出 生 时 重量 的 概率 密度 图 


Births in the United States, 2006 
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图 4-20 ”不同 胎 数 的 婴儿 出 生 时 重量 的 又 加 概率 密度 图 


下 面 以 前 例 中 四 胞 胎 及 以 上 的 组 的 婴儿 重量 为 例 来 说 明 带 状 图 。 数 据 集中 符合 条 件 的 观测 值 只 有 44 个 ， 因 此 带 状 图 适合 展示 密度 。 在 这 个 例子 中 ， 可 以 使 用 subset 参 数 来 指定 需要 绘制 图 形 的 数据 集 ， 
同时 设置 参数 jitter.data=TRUE 增 加 一 些 随 机 的 垂直 噪声 来 使 数据 点 更 具有 可 读 性 。 执 行 以 下 代码 得 到 图 4-21 所 示 的 带 状 图 。 
stripplot (~DBWT, data=births2006.smpl, 


> 

十 subset= (DPLURAL=="5 Quintuplet or highter™ | 
十 DPILURAL=="4 Quadruplet"), 
十 
十 
十 


jitter.data=TRUE, 
main="Births in the United States, 2006", 
xlab="Birth weight, in grams") 


6.Q-Q 图 


lattice 包 中 另外 一 个 很 有 用 的 图 是 Q-Q 图 。Q-Q 图 用 于 比较 数据 的 实际 分 布 与 理论 分 布 。 具 体 来 说 ， 它 是 绘制 观测 数据 的 分 位 与 理论 分 布 的 分 位 图 形 。 如 果 绘 制 的 点 形成 了 一 条 直 的 对 角 线 (从 右上 到 
左下 ) ， 说 明 观 测 数 据 服从 理论 分 布 。Q-Q 图 是 一 种 识别 数据 集 与 理论 分 布 拟 合 程度 优 和 学 的 常用 技术 。1attice 包 中 的 qqmath 遂 数 可 绘制 单 变量 Q-Q 图 ，qq 遂 数 可 生成 比较 两 个 分 布 的 Q-Q 图 。 
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图 4-21 ”四 胞 胎 及 以 上 的 婴儿 出 生 时 重量 的 带 状 图 


lattice 包 中 的 singer 数 据 集 包含 了 合唱 成 员 的 身高 和 声 部 数据 。 执 行 以 下 代码 生成 如 图 4-22 所 示 的 单 变量 Q-Q 图 。 


> library (lattice) 

> gqqmath(~ height | voice.part, aspect = "xy", data = singer, 

prepanel = prepanel .gqqmathline, 

panel = function (x, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/. 
panel .gqqmathline (x, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Te 
panel .gqqmath (x, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/. 


do) 
xt/...) 
a ) 


十 十 十 十 十 


-2-1012 -2-1012 


height 


-2-1012 -2-1012 


qnorm 


图 4-22 单 变量 Q-Q 图 


接 下 来 ， 对 声 部 变量 选取 男 低 音 1 和 男 高 音 2 的 子 集 ， 利 用 qq 函数 生成 比较 两 个 分 布 的 Q-Q 图 。 执 行 以 下 代码 得 到 图 4-23 所 示 的 比较 两 个 分 布 的 Q-Q 图 。 


> qq(voice.part ~ height, aspect = 1, data = singer, 
+ subset = (voice.part == "Bass 2" | voice.part == "Tenor 1")) 


Tenor 1 


604 00 O08 70 72 14 /6 
Bass 2 


图 4-23 ”生成 比较 两 个 分 布 的 Q-Q 图 


7. 箱 线 图 


前 面 提 到 ， 箱 线 图 通过 绘制 连续 型 变量 ， 运 用 五 数 概括 法 ， 即 最 小 值 、 下 四 分 位 数 (第 25 百 分 位 数 ) 、 中 位 数 (第 50 百 分 位 数 ) 、 上 四 分 位 数 (第 75 百 分 位 数 ) 以 及 最 大 值 ， 描 述 了 连续 型 变量 的 分 
。 箱 线 图 能 够 显示 出 可 能 为 离 群 点 (范围 为 正 负 1.5x1QR 以 外 的 值 ，IQR 表 示 四 分 位 距 ， 即 上 四 分 位 数 与 下 四 分 位 数 的 差 值 ) 的 观测 。 在 lattice 包 中 ， 绘 制 箱 线 图 可 以 通过 bwplot 函 数 实现 。 


对 于 singer 数 据 集 ， 我 们 将 voice.part 作 为 条 件 变 量 ， 查 看 不 同类 型 歌手 的 身高 数据 分 布 情况 。 执 行 以 下 代码 得 到 图 4-24 所 示 的 栅栏 箱 线 图 。 


>bwplot( ~ height|voice.part, data=singer, xlab="Height (inches)") 


60 65 70 75 60 65 70 75 


60 63 70 75 60 65 70 75 
Height (inches) 
图 4-24 ”以 voice.batt 作 为 条 件 变量 的 栅栏 箱 线 图 
从 图 4-24 大 致 可 以 看 出 ， 男 性 歌手 的 身高 整体 比 女性 歌手 高 。 如 果 将 voice.part 作 为 分 组 变量 ， 将 能 更 清晰 地 展示 这 一 信息 。 执 行 以 下 代码 得 到 图 4-25 所 示 的 分 组 箱 线 图 


>bwplot (voice.part ~ height, data=singer, xlab="Height (inches)") 


Soprano 1 
Soprano 2 
Alto ] 
Alto 2 
Tenor 1 
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Bass 1 


Bass 2 
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图 4-25 ”以 voice.patt 作 为 分 组 变量 的 分 组 箱 线 图 


从 图 4-25 可 以 清晰 地 看 到 ， 不 同类 型 歌手 的 整体 身高 有 以 下 规律 : 男 低音 大 于 男 高 音 ， 男 高 音 大 于 女 低 音 ， 女 低音 大 于 女 高 音 。 

8. 散 点 图 

散 点 图 可 用 来 描述 两 个 连续 型 变量 间 的 关系 。 在 lattice 中 ， 可 以 使 用 xyplot 国 数 生成 散 点 图 。 

利用 R 自 带 的 芒 尾 花 数据 集 iris， 以 Species 为 条 件 变 量 ， 研 究 Sepal.Length 与 Sepal.Width 两 个 变量 间 的 关系 。 执 行 以 下 代码 得 到 图 4-26 所 示 的 散 点 图 。 


> xyplot (Sepal.Length~Sepal .Width|Species,data=iris) 


2.0 23 3.0 3.3 4.0 4.3 
BE 


Oo 口 


~ 


ee 
Ep 
二 
加 
= 6 
一 
岂 
UN 
na 
5 OOOO OO 
DD 
DO 
OO oO oO 
OO oO 
2.0 2.5 30 3.3 4.0 4.3 2.0 2.3 3.0 3.3 4.0 4.5 
Sepal.Width 
图 4-26 ”以 Species 作为 条 件 变量 的 散 点 图 
也 可 以 利用 cut 函 数 把 数值 型 变量 进行 分 组 ， 然 后 作为 条 件 变量 绘制 栅栏 散 点 图 。 例 如 ， 将 Petal.Length 分 成 三 组 ， 然 后 绘制 散 点 图 。 执 行 以 下 代码 得 到 图 4-27 所 示 的 栅栏 散 点 图 。 


> xyplot (Sepal.Length~Sepal .Width|cut (Petal.Length,2),data=iris) 
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图 4-27 “将 Petal.Length 分 组 后 作为 条 件 变 量 的 散 点 图 
9. 散 点 图 矩阵 
如 果 想 对 和 矩阵 的 多 对 变量 生成 散 点 图 ， 在 lattice 中 ， 可 以 通过 splom 函 数 实现 。 
利用 R 自 带 的 汽车 数据 集 mtcars， 将 cy| 变 量 作为 分 组 变量 ， 画 出 变量 mpg、disp、hp、drat、wt、qeec 间 的 散 点 图 矩阵 。 
利用 pch 设 置 不 同 气缸 数 的 点 样式 ， 并 用 key 参 数 调 整 图 例 。 执 行 以 下 代码 得 到 如 图 4-28 所 示 的 散 点 图 和 矩阵。 


> splom(mtcars[c(1, 3:7)], groups = mtcars$cyl, 

十 pscales = 0,pch=1:3,col=1:3, 

十 varnames = c("Miles\nper\ngallon", "Displacement\n(cu. in.)"， 
十 "Gross\nhorsepower", "Rear\naxle\nratio", 
十 
十 
十 


"Weight", "1/4 mile\ntime"), 
key = list(columns = 3, title = "Number of Cylinders", 
text=]list (levels (factor (mtcarsScyl1L) ) ) ， 


本 Points=1L1ist (pch=1:3,col=1:3))) 


10. 三 维 水 平 图 
要 在 平面 网 格 上 绘制 三 维 数据 ， 用 不 同 颜色 来 展示 第 3 维 的 不 同 值 ， 在 lattice 包 中 ， 可 以 通过 levelplot 溯 数 实现 。 


以 MASS 扩 展 包 中 的 Cars93 数 据 集 为 例 来 说 明 。 该 数据 集 是 1993 年 美国 的 93 辆 汽车 销售 记录 ， 共 有 93 行 27 列 。 先 利用 cor 函 数 求 出 Cars93 数 据 集中 数值 型 向 量 的 相关 系数 ， 并 利用 levelplot 函 数 画 出 水 
平 图 ， 通 过 scales 闵 数 将 x 轴 的 标签 设置 为 垂直 于 x 轴 摆 放 。 执 行 以 下 代码 得 到 图 4-29 所 示 的 三 维 水 平 图 。 
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图 4-28 ”修改 点 样式 的 散 点 图 矩阵 


> data (Cars93, package = "MASS") 
> cor.Cars93 <-cor (Cars93[, !sapply (Cars93, is.factor)], use = "pair") 
> levelplot (cor.Cars93,scales = list(x = list(rot = 90))) 


11. 三 维 等 高 线 图 
函数 contourplot 可 以 用 lattice 包 绘制 等 高 线 图 。 
以 火山 数据 集 volcano 为 例 进行 说 明 。 执 行 以 下 代码 得 到 图 4-30 所 示 的 三 维 等 高 线 图 。 


>contourplot (volcano, cuts = 20, label = FALSE) 


12. 三 维 散 点 图 


绘制 三 维 空 间 的 点 (其实 是 将 三 维 空间 投影 到 二 维 空 间 ) ， 可 以 通过 函数 cloud 实 现 。 
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图 4-29 ”对 Cars93 数 据 集 绘制 水 平 图 


column 
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图 4-30 ”对 volcano 数 据 集 绘制 三 维 等 高 线 图 


以 营 尾 花 数据 集 iris 为 例 进行 说 明 。 执 行 以 下 代码 得 到 图 4-31 所 示 的 三 维 散 点 图 。 


> par.set <-list (axis.line = list(col = "transparent"), 

十 clip = list(panel = "off") ) 

> cloud(Sepal.Length ~ Petal.Length * Petal.Width,data = iris, 
十 Cex = .8,pch=1:3,col=c("plue" "redq"y "green'" ) ， 

十 groups = Species screen = list(z = 20, x = -70, y =0), 
十 par.settings = par.set, 

十 Scales = list(col = "black"), 

十 key=1list (title="Species", 

十 column=3, 

十 space="bottom", 

十 text=]list (levels (iris$Species)), 

十 points=list (pch=1:3,col=c ("blue", "red","green")))) 


13. 三 维 曲 面 图 
可 以 使 用 函数 wireframe 展 示 三 维 曲面 图 。 


还 是 以 火山 数据 集 volcano 为 例 进行 说 明 。 执 行 以 下 代码 得 到 图 4-32 所 示 的 三 维 等 高 线 图 。 


> wireframe (volcano, shade = TRUE, 
十 aspect = c(61/87, 0.4), 
十 light.source = c(10,0,10)) 
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图 4-31 “对 itis 绘 制 三 维 散 点 图 


vlrglnlca 十 


图 4-32 “对 volcano 绘 制 三 维 曲面 图 


4.2 ggplot2 包 绘图 工具 
ggplot2 包 是 包含 了 一 套 全 面 而 连贯 的 语法 的 绘图 系统 。 它 弥补 了 R 中 创建 图 形 缺 乏 一 致 性 的 缺点 ， 且 不 会 局 限于 一 些 已 经 定义 好 的 统计 图 形 ， 可 以 根据 需要 创造 出 任何 有 助 于 解决 所 遇 到 问题 的 图 形 。 


4.2.1 从 dplot 开 始 


` 功能 : 快速 作 图 (quick plot) 。 


“ 使 用 格式 : 


gqplot (x, y = NULL, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/..., data, facets = NULL, margins = FALSE,geom = "aut 


其 中 ，facets 是 图 形 / 数 据 的 分 面 ，geom 指 图 形 的 几何 类 型 ，stat 指 图 形 的 统计 类 型 ，position 可 图 形 或 者 数据 的 位 置 调整 ， 其 他 参数 与 plot 函 数 类 似 。 
下 面 通过 一 些 例子 来 介绍 qplot () 的 工作 原理 。 


利用 膏 尾 花 数据 集 iris， 创 建 一 个 以 物种 为 分 组 的 伦 苯 长 度 的 箱 线 图 ， 箱 线 图 的 颜色 依据 不 同 的 物种 种 类 而 变化 。 执 行 以 下 代码 得 到 图 4-33 所 示 的 箱 线 图 。 


> library (ggplot2) 

> # 利用 qplot 绘 制 箱 线 图 

> gqplot (Species, Sepal.Length,data=iris, 
十 geom="boxplot",fill=Species, 

十 


main=" 依 据 种 类 分 组 的 花 葛 长 度 箱 线 图 ") 


依据 种 类 分 组 的 化 葛 长 度 箱 线 图 
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图 4-33 ”利用 gqplot 函 数 绘制 箱 线 图 


也 可 以 利用 qplot 消 数 画 出 小 提琴 图 ,将 geom 设 置 为 "violon"， 并 添加 扰动 以 减少 数据 重 硬 。 执 行 以 下 代码 可 以 得 到 图 4-34 所 示 的 小 提琴 图 。 


> gqplot (Species, Sepal .Length,data=iris, 
十 geom=c ("Violin"y "jitter")y fill1L=Species， 


十 main=" 依 据 种 类 分 组 的 花 莫 长度 小 提琴 图 ") 


另外 一 个 例子 ,创建 一 个 以 花 莹 长 度 和 花 莹 宽度 为 参数 的 散 点 图 ， 并 利用 颜色 和 符号 形状 区 分 物种 种 类 。 执 行 以 下 代码 可 以 得 到 如 图 4-35 所 示 的 散 点 图 。 


> gqplot (Sepal.Length, Sepal .Width,data=iris, 
十 Colour=Species, shape=Species, 
十 malin=" 绘 制 花 葛 长 度 和 花 萝 宽度 的 散 点 图 ") 


依据 种 类 分 组 的 花 荨 长度 小 提 其 图 
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图 4-34 利用 qplot 函 数 绘制 小 提琴 图 


4 5 绘制 花 划 长 度 和 人 花 划 宽度 的 散 点 图 
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图 4-35 利用 qplot 函 数 绘制 散 点 图 


也 可 以 利用 facets 参 数 绘制 分 面板 散 点 图 ， 并 增加 光滑 曲线 。 执 行 以 下 代码 得 到 图 4-36 所 示 的 分 面板 散 点 图 。 


> gqplot (Sepal.Length, Sepal .Width,data=iris, 
于 geom=c ("point", "smooth"), 

十 facets=~Species,colour=Species, 

十 


main=" 绘 制 分 面板 的 散 点 图 ") 


绘制 分 面板 的 敌后 图 
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图 4-36 ”利用 qplot 函 数 绘制 分 面板 散 点 图 
4.2.2 ggplot 作 图 


1.ggplot () 函数 
. 功能: 初始 化 一 个 ggplot 对 象 ， 不 指定 作 图 内 容 。 


` 使 用 格式 : 


ggplot (data = NULL, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/O0EBPS/Text/...) 


其 中 ，data 指 数据 集 。 
2.layer () 函数 
. 功能 : 创建 一 个 新 的 图 层 。 


` 使 用 格式 .: 


layer (geom, stat,data,mapping,position) 


其 中 ，geom 为 图 形 的 几何 类 型 ，stat 为 图 形 的 统计 类 型 ，data 指 数据 集 ，mapping 指 映射 ，position 为 图 形 或 者 数据 的 位 置 调整 。 
ggplot2 包 的 几何 对 象 函 数 如 表 4-4 所 示 ， 


表 4-4 ”gegplot2 包 的 几何 对 象 函 数 


3.aes () 函数 


“功能 : 创建 图 形 属性 映射 


.使 用 格式 : 


aes (x, y, Colour,http://www.hzcourse.com/resource/read] 


几何 对 象 函 数 
geom abline 
EeOm area 
geom bar 
geom bin2d 
geom_blank 
geom boxplot 
EeOmMm contour 
geom crossbar 
geom density 
Eeom density2d 
Eeom errorbar 
geom errorbarh 
geom treqploy 
EEOMm hex 
geom histogram 
geom hline 
geom Jitter 
EEom line 
geom linerange 
geom path 
EEOm Dolnt 
EEO0m pointrange 
geom_polygon 
geom quantile 
Eeom Tect 
geom Tibbon 
geOM TUg 
peom segment 
Eeom smooth 
geom step 
Eeom text 


geom tile 


， 将 数据 变量 映射 到 图 形 中 。 


描 述 

直线 : 由 和 斜率 和 截 中 指定 
面积 图 
杀 形 图 

- 维 封 箱 的 热 图 
裤 的 几何 对 象 ， 和 什么 也 不 面 
箱 线 图 
等 高 线 图 
Crossbar 图 (类 似 于 箱 线 图 ， 但 没有 触须 和 和 极 值 点 ) 
密度 图 
二 维 密度 图 
避 差 线 (通常 添加 到 其 他 图 形 上 ， 如 柱状 图 、 点 图 、 线 图 等 ) 
水 平 误 差 线 
频率 多 边 形 (类似 于 直方 图 ) 
六 边 形 图 (通常 用 于 六 边 形 封 箱 ) 


是 方 图 

水 平 线 

目 动 添加 了 挑动 点 

线 

区 间 ， 用 竖 直 线 表示 

几何 路 径 ， 由 一 组 点 按 顺 序 连 接 


-条 型 直线 ， 线 的 中 间 有 一 个 点 【与 Crossbar 图 和 箱 线 图 有 关 ) 
多 边 形 
一 组 分 位 数 线 {来 自分 位 数 回归 ) 
二 和 此 的 长 方形 
彩虹 图 


线段 
下 党 的 条 件 均值 

阶梯 图 

文本 

乓 片 【 即 一 个 个 小 长 方形 或 多 边 形 ) 


Book?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/...) 


这 里 ， 参 数 x 和 y 是 映射 到 图 形 中 的 数据 变量 ，colour 是 作 图 使 用 的 颜色 的 映射 。 


下 面 通过 一 些 例子 来 体会 ggplot 绘 图 的 工作 原理 。 


还 是 以 芒 尾 花 数据 集 为 例 ， 利 用 ggplot 函 数 创建 一 个 以 物种 为 分 组 的 花 芋 长 度 的 箱 线 图 ， 箱 线 图 的 颜色 依据 不 同 的 物 类 而 变化 。 执 行 以 下 代码 得 到 如 图 4-37 所 示 的 箱 线 图 。 


> library (ggplot2) 
> ggplot (iris,aes (x=Species,y=Sepal.Length,fill=Species))+ 
十 geom boxplot () 


十 
+ ”labs (title=" 依 据 种 类 分 组 的 花 萝 长 度 箱 线 图 ") 


依据 种 类 分 组 的 花 敬 长 度 箱 线 图 


Species 


-一 setosa 
一 versicolor 
-一 : virginica 


Sepal.Length 
A\ 


setosa versicolor virginica 


Species 


图 4-37 利用 gegplot 骂 数 绘制 箱 线 图 


也 可 以 利用 ggplot 函 数 画 出 小 提琴 图 ， 方 法 为 选择 geom_violin () ， 并 添加 geom_jitter () 增加 扰动 以 减少 数据 重 晋 。 执 行 以 下 代码 得 到 4-38 所 示 的 小 提琴 图 。 


> ggplot (iris,aes (x=Species,y=Sepal.Length,fill=Species))+ 
geom violin()+ 
geom jitter ()+ 


labs (tit1le=" 依 据 种 类 分 组 的 花 葛 长 度 箱 线 图 ") 


十 十 十 


可 以 利用 facet_ wrap 或 facet_grid 国 数 对 图 形 进行 分 面 。 例 如 ， 对 lattice 包 中 的 singer 数 据 集 的 不 同 声 部 的 身高 数据 绘制 密度 图 ， 执 行 以 下 代码 ， 得 到 如 图 4-39 所 示 的 密度 图 。 


> data (singer,package = "lattice") 

> ggplot (data=singer,aes (x=height,fill=voice.part))+ 
十 geom density()+ 

十 facet grid(voice.part~.) 


依据 种 尖 分 组 的 化 苇 长 度 小 所 和 苍 图 


R- 
了 本 
包 Species 
加 加 setosa 
El 6- | | versicolor 
virginica 
.| 


versicolor virginica 
Species 


图 4-38 ”利用 gegplot 函 数 绘制 小 提琴 图 
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图 4-39 ”利用 geplot 函 数 绘 制 分 面板 密度 图 


可 以 设置 面板 的 行 数 或 列 数 (通过 facet_wrap 中 的 nrow 和 ncol 参 数 设 置 ) ， 并 利用 主题 theme 参 数 设置 图 例 。 执 行 以 下 代码 ， 得 到 如 图 4-40 所 示 的 4 列 两 行 摆 放 ， 且 没有 图 例 输出 的 分 面板 密度 图 。 


> ggplot (data=singer,aes (X=heightfil1=voice.Datt) ) 十 


十 十 十 


geom density()+ 
facet wrap (~voice.part,ncol=4)+ 
theme (legend.position="none") 


Bass 2 Bass 1 Tenor 2 Tenor 1 


la 


> 
E Alto 2 Alto 1 Soprano 2 Soprano 1 


‘haad 


60 65 70 75 60 65 70 75 60 65 70 75 60 65 70 75 
height 


0.2- 


0.11 


图 4-40 利用 geplot 函 数 绘制 4 列 两 行 面板 密度 图 


可 以 使 用 scale_color manual 或 scale_color_ brewer 函 数 修改 图 形 的 颜色 。 例 如 想 改变 散 点 图 4-35 的 颜色 ， 可 以 用 以 下 两 种 方式 实现 。 结 果 如 图 4-41 所 示 。 


VV 二 二 VY 中 入 YY 


# 调整 图 形 填充 颜色 

library (gridExtra) 

# 方式 一 : 使 用 scale color manual 函数 

gl <- ggplot (iris,aes (x=Sepal .Length,y=Sepal .Width,colour=Species, shape=Species))+ 
scale color manual (values=c ("orange", "olivedrab", "navy"))+ 
geom point (size=3) 

# 方式 而 :使 用 Scale color prewet 函 数 

g2 <- ggplot (iris,aes (x=Sepal.Length,y=Sepal .Width,colour=Species, shape=Species))+ 
scale color brewer (palette="Set1")+ 
geom point (size=3) 

grid.arrange (g1,g2,ncol=2) 


4.ggsave () 国 数 


功能 : 保存 图 片 。 


.使 用 格式 : 


ggsave (filename, width, height, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/...) 
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其 中 ，filename 为 保存 的 文件 名 与 路 径 ，width 指 图 像 宽 度 ，height 指 图 像 高 度 。 


例如 ， 执 行 以 下 命令 后 ， 在 当前 工作 目录 下 生成 一 个 名 为 mygraph 的 pdf 图 形 。 


> ggplot (iris,aes (x=Sepal .Length,y=Sepal .Width,colour=Species))+ 


+ geom point (size=2) 


> ggsave (file="mygraph.pdf",width=5,height=4) 


利用 ggplot 函 数 改 变 图 形 颜 色 


. 
中 
@ 
可 EE 昌 
09 
量 
5 
a 和 本 醒 
Species 
® setosa 
ee 人 A a versicolor 
9 外 让 a virginica 
二 大 大 记 国 房 本 么 塌 面 醒 本 图 三 
入 入 YY 至 
一 太 辐 Fi 生 园 
入 庙 £ 本 本 
二 生生 三 可 
yy 二 
A 
入 入 
是 入 
6 7 8 
Sepal.Length 


4.2.3 ggthemes 主 题 包 


ggthemes 包 是 ggplot2 的 主题 扩展 包 ， 提 供 了 供 ggplot2 使 用 的 新 主题 、 尺 度 、 几 何 对 象 和 一 些 新 函数 。 通 过 install.packages ('ggthemes'，dependencies=TRUE) 命令 安装 ggthemes 包 。 加 载 


ggthemes 包 可 以 使 用 该 包 提供 的 themes 快 速 画 出 不 同 的 背景 图 片 。ggtheme 的 主题 类 型 如 表 4-5 所 示 。 


主 题 名 
theme base 
theme calc 
theme economist 
theme economist white 
theme excel 


theme few 


表 4-5 getheme 的 主题 类 型 


类 似 于 ggplot 默认 设置 

类 似 于 LibreOffice Calc 图 表 
类 似 于 经 济 类 图 表 

类 似 于 经 济 类 图 表 
类 似 于 经 典 excel 图 表 
简洁 型 


现在 体会 不 同 主题 绘制 出 来 的 风格 。 图 4-42 为 Economist 和 Solarized 主 题 。 


> library (ggplot2) 

> library (ggthemes) 

> library (gridExtra) 

> pl <- ggplot (mtcars, aes(x = wt, y = mpg)) + 
+ geom point (size=3) 

> # Economist themes 

> p2 <- pl + ggtitle ("Economist theme") + 

+ theme economist() + Scale colour economist() 
> # Solarized theme 

> p3 <- pl + ggtitle("Solarized theme") + 

+ theme solarized() + Scale colour solarized ("blue") 


> grid.arrange (p2,p3,ncol=2) 


图 4-43 为 Stata 和 Excel 2003 主 题 。 


> p4<- pl + ggtitle("stata them") + 

+ theme stata() + Scale colour stata() 
> # Excel 2003 theme 

> p5<- pl + ggtitle ("Excel 2003 them") + 
+ theme excel() + Scale colour excel () 
> grid.arrange (p4,p5,ncol = 2) 
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图 4-42” ”Economist 和 Solarized 主 题 


图 4-43 ”Stata 和 Excel 2003 主 题 


4.3 ”交互 式 绘图 工具 


前 面 可 视 化 的 结果 就 是 一 个 静态 的 图 形 ， 所 有 信息 都 一 目 了 然 地 放 在 一 张 图 上 。 静 态 图 形 适 合 于 分 析 报 告 等 纸 质 媒介 ， 而 在 网 络 时 代 ， 如 果 在 网 页 上 发 布 可 视 化 ， 那 么 动态 的 、 交 互 的 图 形 则 更 有 优 
势 。 在 R 的 环境 中 ， 动 态 交互 图 的 优势 在 于 能 和 knitr、shiny 等 框架 整合 在 一 起 ， 迅 速 建立 一 套 可 视 化 原型 系统 。 


4.3.1 rCharts 包 


直接 在 R 中 生成 基于 D3 的 Web 页 面 。 由 于 该 包 还 处 于 开发 状态 ， 它 目前 存放 在 github 代 码 库 中 ， 所 以 需要 特别 的 安装 加 载 方式 。rCharts 包 的 安装 代码 如 下 。 


> require (devtools) 
> install github('rCharts', 'ramnathyv') 


就 像 lattice 函 数 一 样 ，rCharts 包 绘图 函数 通过 formula、data 指 定 绘图 方式 和 数据 源 ， 并 通过 type 参 数 指定 图 表 类 型 。 


rCharts 支 持 多 个 avascript 图 表 库 ， 每 个 都 有 自己 的 长 处 。 每 一 个 图 表 库 有 多 个 定制 选项 ， 其 中 大 部 分 rCharts 都 支持 。 


1.nPlot 负 数 


NVD3 是 一 个 则 在 建立 可 复 用 的 图 表 和 组 件 的 d3.js 项 目 。 它 提供 了 同样 强大 的 功能 ,但 更 容易 使 用 。 它 可 以 让 我 们 处 理 复杂 的 数据 集 来 创建 更 高 级 的 可 视 化 。 在 rCharts 包 中 提供 了 nPlot 函 数 来 实现 其 


下 面 以 眼睛 和 头发 颜色 的 数据 (HairEyeColor) 为 例 ， 说 明 nPlot 绘 图 的 基本 原理 。 按 照 眼睛 的 颜色 进行 分 组 (group="Eye") ， 对 头发 颜色 人 数 绘 制 柱状 图 ， 并 将 类 型 设置 为 柱状 图 组 合 方式 
(type="multiBarChart") ， 这 样 可 以 实现 分 组 和 时 加 效果 。 执 行 以 下 代码 得 到 图 4-44 所 示 的 交互 分 组 柱状 图 。 


i GGrouped ©O Stacked 但 EyeBrown EyeBlue @ EyeHazel EyeGreen 
50.0 
45.0 
40.0 
35.0 
30.0 
25.0 
20.0 
15.0 


10.0 


| 
| 
-中 
| 


A 
© 


0.0 
HairBlack HairBrown HairRed HairBlond 


图 4-44 ”利用 nPlot 逊 数 绘制 交互 分 组 柱状 图 


> hair eye male <- subset (as.data.frame (HairEyeColor), Sex == "Male") 
> hair eye male[,1] <- Paste0 ("Hair",hair eye malel[,1]) 

> hair eye malel[,2] <- paste0 ("Eye",hair eye male[,2]) 

> nPlot (Freq ~ Hair, group = "Eye", data = hair eye male, type = "multiBarChart") 


DD 


可 以 在 图 4-44 右 上 角 选 择 需 要 查看 或 隐藏 的 类 别 (默认 显示 全 部 类 别 ) ， 在 左上 和 角 选 择 柱子 是 按照 分 组 还 是 按照 二 加 的 方式 摆 放 (默认 是 分 组 方式 ) 。 如 果 选 择 Stacked， 就 会 绘制 著 加 柱状 图 ， 如 图 
4-45 所 示 。 


OGrouped ®@ Stacked 起 上 yeBrown EyeBlue @EyeHazel @ EyeGreen 
143.0 


120.0 


3 8 
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图 4-45 ”利用 nPlot 澡 数 绘制 交互 又 加 柱状 图 


如 果 想 绘制 交互 的 条 形 图 ， 只 需要 将 type 类 型 改 为 "multiBarHorizontalChart" 即 可 。 执 行 以 下 代码 得 到 图 4-46 所 示 的 交互 分 组 条 形 图 。 


> n2 <- npPlot (Freq ~ Hair, group = "Eye", data = hair eye male, 
十 type="multiBarHorizontalChart") 
> n2 
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0.0 10.0 20.0 30.0 40.0 50.0 53.0 
图 4-46 ”利用 nPlot 肖 数 绘制 交互 条 形 图 


可 以 将 showControls 参 数 设置 为 FALSE， 隐 藏 左上 角 的 选项 ， 此 时 不 能 对 条 形 图 进行 于 加 。 执 行 以 下 代码 得 到 图 4-47 所 示 的 交互 条 形 图 。 


> n2s$chart (showControls=F) 
> n2 


@kyeBrown EyeBlue SkyeHazel EyeGreen 


0.0 10.0 20.0 30.0 40.0 S00 35330 


图 4-47 隐藏 左上 角 选 项 的 交互 条 形 图 


2.hPlot 国 数 


Highcharts 是 一 个 制作 图 表 的 纯 Javascript 类 库 ， 支 持 大 部 分 的 图 表 类 型 : 直线 图 、 曲 线 图 、 区 域 图 、 区 域 曲 线 图 、 柱 状 图 、 饼 状 图 、 散 布 图 等 。rCharts 包 提供 了 hpPlot 阔 数 来 实现 这 些 功能 。 


以 MAss 包 中 的 学 生 调 查 数据 集 survery 为 例 ， 说 明 hPlot 绘 图 的 基本 原理 。 绘 制 学 生 身高 和 每 分 钟 脉搏 跳动 次 数 的 散 点 图 图 ， 以 性 别 变量 作为 分 组 变量 。 执 行 以 下 代码 得 到 图 4-48 所 示 的 交互 散 点 图 。 


> a <- hPlot (Pulse ~ Height, data = MASS: :Survey type = 'scatter', 

十 group = 'Sex', radius = 6, group.na = "Not Available") 

> a$colors('rgba(223, 83, 83, .5)', 'rgba(119, 152, 191, .5)', 'rgba(60, 179, 113, .5) ") 
> a$legend(align = 'right', verticalAlign = 'top', layout = 'vertical') 

> a$schart (zoomType = "xy") 

> a$exporting (enabled = TT) 

>a 


3.mPlot 国 数 


Morris.js 是 一 个 轻 量 级 的 JS 库 ， 能 绘制 漂亮 的 时 间 序 列 线 图 ， 包 括 线 图 、 柱 图 、 区 域 图 、 圆 环 图 。 在 rCharts 包 中 通过 mpPlot 函 数 实现 。 


以 ggplot2 包 中 的 美国 经 济 时 间 序 列 数据 集 economics 为 例 ， 说 明 mpPlot 函 数 绘图 的 基本 原理 。 执 行 以 下 代码 得 到 如 图 4-49 所 示 的 时 间 序 列 图 。 


120 


@ Female = 
- Male 
Not Available 


Pulse 
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Height 


图 4-48 ”利用 hPlot 哆 数 绘 制 交互 散 点 图 


> data (economics, package = 'ggplot2') 

> dat <- transform(economics, date = as.character (date)) 

> pl <- mPlot (x = "date", y = "psavert", data = dat, type = 'Line', 
十 pointSize = 0, lineWidth = 1) 

> pi 
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图 4-49 ”利用 mPlot 沁 数 绘制 时 间 系 列 图 


可 以 通过 p1$set (type="Area") 将 时 间 序 列 图 变 成 面积 图 。 结 果 如 图 4-50 所 示 。 


> pls$set (type="Area") 
> pl 


20 


15 1972_08_01 
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图 4-50 ”修改 图 表 类 型 得 到 的 面积 图 


4.3.2 recharts 包 


recharts 加 载 包 仍 在 开发 完善 中 。recharts 基 于 Echarts2 的 最 后 一 个 稳定 发 布 版 (v2.2.7) 开发 。 本 书 仪 介绍 recharts 最 新 的 特性 (Github) 。 安 装 方式 : 


if (!require (devtools)) library (devtools) 
install github ("madlogos/recharts") 


recharts 是 一 个 用 于 可 视 化 的 Rj 加 载 包 ， 它 提供 了 一 套 面 向 JavaScript 库 ECharts2 的 接口 。 此 包 的 目的 是 让 R 用 户 即 便 不 精通 HTML 或 Javascript， 也 能 用 很 少 的 代码 做 出 Echarts 交 互 图 。 当 然 ， 懂 一 点 


Javascript 的 话 会 如 虎 添 翼 。 


recharts 包 基于 htmlwidgets 包 制作 ， 这 样 做 的 优点 是 极 大 地 节省 了 开发 者 管理 Java-Script 依 赖 包 和 处 理 不 同类 型 的 输出 文档 (如 R Markdown 和 Shiny) 的 时 间 。 只 需要 创建 一 幅 图 ， 而 如 何 输 出 这 幅 


(无 论 R Markdown、Shiny， 还 是 R 控 制 台 /RStudio) ， 则 交 由 htmlwidgets 来 处 理 。 


1. 散 点 图 


此 包 的 主 函 数 是 echartr () 和 S3 通 用 函数 echart () 。 在 设计 宗旨 上 ， 和 希望 它们 能 自动 处 理 不 同类 型 的 R 数 据 。 比 如 ， 把 一 个 数据 框 传 入 echart () ， 而 x、y 变 量 均 为 数值 型 ， 遂 数 会 自动 适 配 散 点 


， 并 自动 生成 对 应 的 坐标 轴 。 当 然 ， 也 可 以 通过 type 参 数 选 择 需要 展示 的 图 形 。 


执行 以 下 代码 得 到 如 图 4-51 所 示 的 散 点 图 。 


> library (recharts) 
> echartr (iris, Sepal.Length, Sepal .Width) 


如 果 指 定 series 参 数 ， 就 生成 一 幅 分 组 散 点 图 。 还 可 以 将 基本 图 形 存 为 一 个 对 象 ， 然 后 不 断 修 改 它 ， 并 把 这 些 修改 用 %> % 串 联 起 来 ， 比 如 通过 setseries 函 数 把 散 点 的 大 小 改 为 8。 结 果 如 图 4-52 所 示 。 


> 9 <- echartr (Iris Sepal.Width, Petal.Width, series =Species) 
> 9 %>% setSeries (symbolSize=8) 
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图 4-51 利用 recharts 包 绘制 散 点 图 
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图 4-52 ”利用 techatts 包 绘制 分 组 散 点 图 
如 果 分 组 散 点 图 默认 的 形状 不 是 你 期 望 的， 可 以 通过 setSymbols 函 数 来 自 定义 不 同 组 别 散 点 图 的 样式 。Echarts 默 认 的 符号 有 : 'circle'、'rectangle'、'triangle'、'diamond'、'emptyCircle'、 
'emptyRectangle'、'emptyTriangle'、'emptyDiamond'; 还 可 以 分 配 非 标准 符号 ， 如 'heart'、'droplet'"、'pin'、'arrow'、'star3'、'star4'、'star5'、'star6'、'star7'、'star8'、'star9”。 如 果 想 将 图 4-51 


中 不 同 种 类 的 点 符号 变 成 心 形 、 箭 头 、 钻 石 ， 只 需要 增加 setSymbols (c (heart'，'arrow'，'diamond') ) 语句 即 可 。 结 果 如 图 4-53 所 示 。 


> echartr (iris, Sepal.Width, Petal.Width, series =Species) %>% 
十 setSeries (symbolSize=8) %>% 
十 SetSymools (c('heatrt'， ‘'arrow','diamond')) 
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图 4-53” 自 定义 不 同 组 别 的 点 符号 


Sepal.Width 
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大 家 可 能 已 经 注意 到 echartr 函 数 绘制 出 的 图 形 默 认 右 上 角 带 有 工具 箱 ， 可 以 通过 工具 箱 进行 交互 操作 ， 比 如 添加 辅助 线 、 拖 放 区 域 、 数 据 视 图 、 还 原 、 保 存 图 片 等 。 可 以 通过 


setToolbox (show=FALSE) 命令 将 工具 箱 关 闭 ， 结 果 如 图 4-54 所 示 。 


> g <- echartr (Iris Sepal.Width, Petal.Width, series =Species) $>% 
十 setSeries (symbolSize=8) %>% 

十 SetSymobols (c('heatrt'， "arrow'， 'diamond')) %$>% 

十 setToolbox (show=FALSE) 

> 9 


还 可 以 通过 addMarkPoint 国 数 给 数据 点 添加 标识 ， 如 标识 出 每 个 种 类 的 最 大 花瓣 宽度 值 。 结 果 如 图 4-55 所 示 。 


> g $>% addMarkPoint (series=unique (iris$Species), 
十 data=data.frame (type="max" name=" 最 大 值 ") ) 
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图 4-55 ”标识 每 个 种 类 花 准 宽 度 最 大 值 


和 其 他 绘图 函数 一 样 ， 可 通过 setTitle 函 数 给 图 形 添加 标题 ， 结 果 如 图 4-56 所 示 。 


> 9 %$>%$ setTitle (" 依 据 种 类 绘制 的 分 组 散 点 图 中 ) 
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依据 种 类 绘制 的 分 组 慑 点 图 


图 4-56 ”添加 主 标题 


从 图 4-56 可 知 ， 添 加 的 主 标题 默认 摆 在 图 形 正 下 方 ， 可 以 通过 setTitle 国 数 中 的 pos 参 数 摆 放 标题 。 pos 是 1~12 的 数字 ， 分 别 为 10 (|, t, v) 、11 (th) 、12 (ct h) 、1 (rt，h) 、 
2 人 (ntv、9lcv、 ak 人 rcv、8(blv、7(b,h、6(c，b,h) 、5 (r，b，h) 、4 (r，b，v) 。 比 如 6 (c，b，h) 表示 分 别 为 ("center", "bottom"，"horizontal") 的 缩 
写 ， 即 将 标题 放 在 正 下 方 ， 按 照 水 平 摆 放 。 欲 将 标题 放 在 正 上 边 ， 只 需要 将 pos 设 置 为 12 即 可 ， 结 果 如 图 4-57 所 示 。 


从 图 4-57 可 知 ，echartr 函 数 绘制 图 形 的 图 例 默认 在 左上 角 摆 放 。 可 以 通过 setLegend 函 数 对 图 例 进行 个 性 化 设置 ， 同 理 ， 也 可 以 通过 pos 参 数 调整 图 例 的 摆 放 位 置 。pos 默 认为 11 (1,t，h) ， 即 在 左 
上 角 水 平 排列 。 谷 将 图 例 设置 为 右边 垂直 摆 放 ， 只 需 将 pos 设 置 为 3， 结 果 如 图 4-58 所 示 。 


> g %>%$ setTitle (" 依 据 种 类 绘制 的 分 组 散 点 图 "Pos=12) %>% 
十 setLegend (pos=3) 


还 可 以 通过 setTheme 函 数 对 主题 进行 美化 。 可 以 选择 的 自 带 主题 包 


插 “macarons” “infographic” “blue” “dark” “gray” “green” “helianthus” “macarons2” “mint” “red” “roma” “sakura” “shine” 和 “vintage”。 使 用 “helianthus” 主题 ， 得 到 
的 结果 如 图 4-59 所 示 。 


> g <- echartr (iris, Sepal.Length, Sepal.Width) %>% 
十 setSeries (symbolSize=8) 
> g %>% setTheme ('helianthus', calculable=TRUE) 
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图 4-57 ”改变 标题 的 摆 放 位 置 
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图 4-58 改变 标题 和 图 例 的 摆 放 位 置 
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图 4-59 ”对 主题 进行 美化 


2. 条 形 图 
recharts 包 绘制 的 条 形 图 有 三 种 类 型 : 条 图 (barlhbar) 、 柱 图 (column|vbar) 、 直 方 图 (histogram|hist) 。 


例如 ， 绘 制 多 个 序列 的 条 形 图 ， 执 行 以 下 代码 得 到 的 结果 如 图 4-60 所 示 。 


> revenue <- read.csv ("revenue.csv") 

> library (reshape2) 

> revenue <- melt (revenue, igd=" 游 戏 名 称 ") 

> colnames (revenue) <- c(" 游 戏 名 称 ", "时 间 段 ", "收入 ") 

> # 绘制 条 形 图 ， 上 默认 hibar 类 型 

> b <- echartr (revenue, "游戏 名 称 ", "收入 ", "时 间 段 ") %$>% 
+ ”setTitle ("游戏 收入 ", pos=12) %>% 

十 setLegend (pos=6) 

> 


可 单 击 工具 箱 中 的 推 积 选项 ， 将 分 组 条 形 图 变 成 晋 加 条 形 图 ， 结 果 如 图 4-61 所 示 。 


图 4-60 有 个 小 细节 处 理 得 不 是 很 好 ， 就 是 y 轴 Label 没 有 完全 显示 ， 可 以 改变 setGrid 函 数 中 的 x 参 数 来 调整 。 x 参 数 默 认为 80， 将 其 修改 为 150。 执 行 以 下 代码 得 到 的 结果 如 图 4-62 所 示 。 


> b $>%$ setGrid (x=150) 


如 果 希 望 柱子 的 宽度 随 某 个 变量 改变 ， 可 以 将 此 变量 赋予 weight 参 数 。 执 行 以 下 代码 得 到 的 结果 如 图 4-63 所 示 。 


> # 增加 权重 变量 
revenues$ 权 重 <- ifelse (revenueS 时 间 段 ==' 本 周 !，2，1) 
# 绘制 柱状 图 
tr (revenue, "游戏 名 称 " "收入 ", "时 间 段 ",weight = "权重 "type = "hbar") $>% 
setTitle ("游戏 收入 ",pos=12) %>% 
setLegend (pos=6) %>% 
setGrid (x=150) 
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图 4-60 绘制 多 序列 条 形 图 
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图 4-61 变 成 堆积 条 形 图 
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图 4-63 ”绘制 不 同 宽 度 的 条 形 图 
当然 ， 也 可 以 很 轻易 绘制 一 些 根据 条 形 图 演变 的 特殊 图 形 ， 如 图 4-64 所 示 的 龙卷风 图 。 其 绘制 需 注意 两 点 : 提供 一 个 全 正 值 变量 和 一 个 全 负 值 变量 ; 平 铺 ， 不 要 堆积 。 


> # 绘制 龙卷风 图 

> revenue tc <- revenue 

> revenue tc$ 收 入 [revenue tc$ 时 间 段 ==" 上 周 "] <- 

+ -revenue tc$ 收 入 [revenue tc$ 时 间 段 ==" 上 周 "] 

> g <- echartr (revenue tc, "游戏 名 称 ", "收入 ", "时 间 段 ",type = "hbar") %>% 
setTitle ("游戏 收入 ",pos=12) %>% 
setLegend (pos=6) %>% 
setGrid (x=150) 
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图 4-64 ”绘制 龙卷风 图 


设 type 为 'hbar'，subtype 为 'stack'， 就 得 到 了 社会 学 中 常用 的 人 口 学 金字 塔 。 执 行 以 下 代码 得 到 的 结果 如 图 4-65 所 示 。 


> # 金字 塔 图 

> g <- echartr (revenue 七 cy "游戏 名 称 "," 收 入", "时 间 段 ",type = "hbar",subtype='stack') $>% 
+ ”setTitle ("游戏 收入 ",pos=12) 多 > 多 

十 setLegend (pos=6) %>% 

十 setGrid (x=150) %>% 

十 setYAxis (axisLine=]ist (onZero=TRUE ) ) %$>% 

十 setXAxis (axisLabel=1list( 

十 formatter=JS('function (value) {return Math.abs (value);}') 

上 冰 ) 

> 9 
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图 4-65 ”绘制 金字 塔 图 


4.3.3 rbokeh 包 


Bokeh 是 一 个 创建 交互 式 图 表 和 地 图 的 python 库 ， 现 在 有 了 对 应 的 R 包 ， 作 者 是 Ryan Hafen。 它 可 以 很 容易 地 创建 漂亮 的 网 页 图 表 ， 并 且 与 Shiny 完 全 兼容 。 

通常 ， 利 用 bokeh 来 绘图 需要 给 图 形 添加 图 层 ， 类 似 于 ggplot2。 创 建 一 个 简单 的 图 表 主 要 包含 以 下 两 个 步骤 : 

. figure () : 初始 化 图 形 。 它 有 很 多 参数 ， 用 来 设置 宽度 、 高 度 、 标 题 和 坐标 轴 参 数 

.ly_geom () : 指定 要 用 到 的 几何 类 型 。 有 多 种 选择 : ly_points、ly_lines、ly_hist、ly_boxplot 等 。 这 些 函 数 中 的 参数 可 以 用 来 指定 点 的 大 小 、 颜 色 以 及 哪些 变量 用 来 显示 等 。 
rbokeh 包 可 以 通过 install.packages ("rbokeh") 命令 安装 。 


rbokeh 包 修改 图 形 的 方法 与 recharts 相 同 ， 也 是 通过 %> % 进 行 。 以 下 代码 先 利用 figure () 函数 初始 化 图 形 ， 再 利用 ly_geom 系 列 函 数 在 图 形 上 依次 增加 散 点 图 、 线 性 回归 拟 合 直线 和 平滑 拟 合 曲线 。 
得 到 的 结果 如 图 4-66 所 示 。 


> if(!require(rbokeh)) install.packages ("rbokeh") 
> # 载 入 需要 的 程 辑 包 : rbokeh 

> z <- lm(dist ~ speed, data = cars) 

> p <- figure(width = 600, height = 600) 和 > 多 

十 ly Pojints (cars, hover = cars) %>% 

本 ly Tines (Jowess (cars), legend = "lJowess") %>% 
十 ly abline(z, type = 2, legend = "lm") 

> 了 P 
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图 4-66 ”绘制 带 拟 合 线 的 散 点 图 


接 下 来 ， 通 过 |ly_hist 遂 数 绘制 直方 图 ， 并 通过 ly_density 函 数 添加 密度 曲线 。 执 行 以 下 代码 得 到 的 结果 如 图 4-67 所 示 。 


> # 绘制 直方 图 

> h <- figure (width = 600, height = 400) 和 > 多 

十 ly hist(eruptions, data = faithful, breaks = 40, freq = FALSE) %>% 
+ ly density(eruptions, data = faithful) 

>h 


最 后 ， 利 用 ly_boxplot 函 数 绘制 箱 线 图 。 执 行 以 下 代码 得 到 的 结果 如 图 4-68 所 示 。 


> # 绘制 箱 线 图 

> figure(ylab = "Height (inches)", width = 600) %>% 

十 ly boxplot (voice.part, height, data = lattice::singer) 
4.3.4 plotly 包 


plotlyjs 是 开源 的 JavaScript 图 标 库 ， 它 包括 20 种 图 表 类 型 ， 包 括 3D 图 表 、 统 计 图 表 和 SVG 地 图 。plotly 是 基于 plotlyjs 创 建交 互 式 web 图 表 的 R 包 。 它 通过 HTML widgets 框 架 完全 在 本 地 上 运行 。 
plotly 包 可 以 通过 install.packages ("plotly") 命令 安装 。 


plotly 图 具有 非常 友好 的 交互 效果 。 单 击 拖 动 可 以 放大 ， 按 下 shift 键 单 击 可 以 移动 ， 双 击 可 自动 缩放 。 比 如 想 绘制 各 游戏 本 周 收入 的 柱状 图 ， 只 需 将 type 参 数 设置 为 bar 即 可 ， 结 果 如 图 4-69 所 示 。 
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图 4-67 ”绘制 带 密 度 曲 线 的 直方 图 
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图 4-68 绘制 箱 线 图 


VVVYV'‘Om~IOOUOPONPYVYVYV 


revenue <- read.csv ("revenue.csv") 


revenue 游 戏 名 称 本 周 上 周 


烈焰 让 天 556 ”400 

坦克 大 战 OL (ios 正 版 ) 1221 1855 
美人 记 1876 1287 

坦克 大 战 OL ( 安 卓 ) 2239 1870 

三 便衣 4213 5649 

蕉 穹 变 ( 安 卓 ) 7155 ”7084 

苍穹 变 (iOS 正 版 ) 7443 8786 

圣 斗 士 星 矢 - 集 结 ( 安 卓 ) 13906 15849 


圣 斗 士 星矢 -集结 (ios 正 版 ) 28489 25712 


# 


绘制 柱状 图 
(!require (plotly)) install.packages ("plotly") 


11 
了 
了 


<- plot ly(revenue,y = ~ 本 周 ,x = ~ 游戏 名 称 ,type = "bar",name = "本 周 ") 


加 有 中 国 目 关 务 便于 此 
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图 4-69 ”利用 plotly 包 绘制 交互 柱状 图 
修改 图 形 的 方法 与 recharts 相 同 ， 也 是 通过 %> % 进 行 。 比 如 现在 想 在 现 有 柱状 图 上 添加 上 周 收入 的 柱子 ， 可 通过 add _trace 遂 数 进行 添加 ， 结 果 如 图 4-70 所 示 。 
>p $>%$ adq trace(y = ~ 上 周 ,name = "上 周 ") 


也 可 通过 layout 遂 数 来 修改 图 形 的 布局 、 主 题 等 。 现 将 图 4-69 变 成 苇 加 柱状 图 、 添 加 主 标题 ， 并 删除 x 轴 和 y 轴 标签 。 执 行 以 下 代码 得 到 的 结果 如 图 4-70 所 示 。 


> p $>% 

+ “ add trace(y = ~ 上 周 ,name = "上 周 ") %>% 
十 layout (barmode = "StackKk'"， 

十 xaxis = list(title = "")， 

十 yaxis = list(title = "") 

+ title = "游戏 收入 数据 ") 


如 果 想 绘制 交互 箱 线 图 ， 需 要 将 type 参 数 设置 为 "box"。 执 行 以 下 代码 得 到 的 结果 如 图 4-72 所 示 。 


> plot ly(midwest, x = percollege, color = state, type = "box") 
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图 4-70 ”利用 plotly 包 绘制 分 组 柱状 图 
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图 4-71 利用 plotly 包 绘制 又 加 柱状 图 


4.3.5 googleVis 包 


googleVis 是 一 种 提供 了 R 和 google visualization api 之 间接 口 的 R 包 ， 它 允许 用 户 无 需 上 传 数据 到 google， 就 可 以 使 用 Google Visulization API 对 数据 进行 可 视 化 处 理 。 不 过 它 的 缺点 是 用 户 必须 联网 
才能 调用 图 形 结果 (国内 还 需要 翻 墙 ， 通 过 install.packages ("googleViz") 可 完成 包 的 安装 。 


30 
percollege 


图 4-72 ”利用 plotly 包 绘制 交互 箱 线 图 


对 googleViz 自 带 的 数据 集 Fruit， 利 用 gvisMotionChart 函 数 实现 功能 强大 的 交互 图 。 执 行 以 下 代码 得 到 的 图 形 如 图 4-73 所 示 。 


lJibrary (googleViz) 


M1] <- gvisMotionChart (Fruits, idvar="Fruit", timevar="Year") 
lot (M1) 


到 


oR MotonCchardiDiadesd x 


择 沾 同 国 表亲 型 


ee 
LAppies 
LBananas 
|_ |Oranges 
[wi Trails 


选择 要 展示 的 水 果 


Expenses 


时 间 轴 播放 条 


Data: Fruits * Chart iD: MotionChamDiadcsd0elazb. googlevis-0 .sd 
Rversion 31.2 (2014-10-31)* Gooole Terms of Use* Documentation and Crata Pollcy 


图 4-73 ”利用 gvisMotionChatt 函 数 绘制 功能 强大 的 交互 图 


4.3.6 ”其 他 基于 htmlwidgets 包 开发 的 交互 包 


htmlwidgets 包 是 一 个 专 为 R 语 言 打 造 的 可 视 化 JS 库 。 用 户 只 需要 编写 几 行 R 语 言 代码 便 可 生成 交互 式 的 可 视 化 页 面 。 目 前 已 经 有 众多 基于 htmlwidgets 制 作 的 R 包 可 供用 户 直接 使 用 ， 如 前 文 提 到 的 
recharts、plotly 等 包 。 上 此外， 还 有 如 下 的 一 些 包 。 


. leaflet: 互动 地 图 ， 与 OpenStteeMap、Mapbox、andCattoDB 地 图 交互 。 
“ dygraphs: 时 间 序 列 可 视 化 。 

“DT: 交互 式 数据 表格 。 

.hetwotkD3: 基于 D3JS 网 络 可 视 化 。 

. paitsD3: 绘制 D3 散 点 图 和 矩阵。 

“ scatterD3: 绘制 交互 式 散 点 图 可 视 化 。 

wordcloud2: 调用 一 个 JS 的 库 (wordcloud2.js) 实现 wordcloud。 
“ timevis: 交互 式 时 间 线 可 视 化 。 

.fbivotTable: 交互 数据 透视 表 。 

.thteejs: 交互 式 3D 图 形 。 

highcharter: HighchartetsJS 图 形 库 的 R 接 口 。 

. visNetwork: 基于 vis.js 网 络 可 视 化。 

“ fglwidget: 提供 WebGL 场景 。 

. DiagrammetR: 创建 流程 图 的 工具 。 

.metticsgtaphics: MetricsGraphics.js 的 htmlwidget 接 口 。 


1.leaflet 包 


leaflet 包 是 最 受 欢 迎 的 交互 地 图 可 视 化 的 开源 JavaScript 库 之 一 。 这 个 R 包 很 容易 控制 并 使 用 leaflet JS 库 。 它 可 以 交互 式 地 平移 /缩放 ， 使 用 任意 的 地 图 组 合 。 
使 用 leaflet 在 OpenStreeMap 地 图 上 标记 R 语 言 的 诞生 地 一 一 亲 


局 


新 西 兰 奥克兰 大 学 。OpenStreeMap 地 图 是 leaflet 默 认 使 用 的 地 图 。 执 行 以 下 代码 得 到 如 图 4-74 所 示 的 地 图 。 


library (leaflet) 
leaflet () %>% 
addTiles () 


adqqMarkers (1ng=174.768,1at=-36.852,popup="Thebirthplaceo 


+ 二 入 YY 


FR") 


在 leaflet 包 初始 化 时 ， 一 般 调用 leaflet () 方法 ， 这 个 方法 对 地 图 控件 进行 初始 化 ， 生 成 一 个 地 图 容器 ， 以 后 所 有 的 图 层 操 作 都 在 这 个 容器 内 处 理 。 一 般 来 说 ， 这 个 方法 都 被 作为 其 他 方法 的 第 一 个 参 
数 来 使 用 。 可 以 通过 显示 参数 设 定 或 者 通过 管道 操作 符 %>% 来 把 这 个 容器 传递 给 其 他 的 方法 。 


如 果 想 在 地 图 上 标记 深圳 市 ， 只 需要 查找 出 深圳 市 的 经 纬度 ， 蔡 换 掉 addMarkers 函 数 中 的 Ing 和 lat 参 数 即 可 。 可 利用 REmap 包 中 的 get_city_coord 国 数 查找 某 个 地 方 的 经 纬度 。 执 行 以 下 代码 得 到 的 结 
果 如 图 4-75 所 示 。 
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图 4-74 利用 leaflet 函 数 在 地 图 上 标记 R 语 言 的 诞生 地 


> location <- REmap: :get city coord (" 深 圳 "”) 

> leaflet () $>% 

十 SetView (lng=location[1],1at=location[2],zoom=9) $>% 

+ addTiles() 和 > 和 

+ ”addMarkers (lng=location[1],lat=location[2],popup=" 这 里 是 深圳 市 ") 
2.dygraphs 包 


dygraphs 包 是 一 个 开源 的 JavaScript 库 ， 它 可 以 产生 一 个 交互 的 、 可 缩放 的 时 间 序 列 图 ， 尤 其 使 用 于 大 型 数据 集 。dygraphs 包 可 以 实现 dygraphs Js 库 中 交互 的 时 序 图 ， 高 度 可 配置 的 轴 和 序列 显示 ， 
丰富 的 互动 功能 ， 上 、 下 区 域 显示 (如 置信 带 ) ， 各 种 图 形 履 盖 (如 阴影 、 注 释 等 ) ， 是 Ri 语言 做 时 间 序 列 图 的 很 好 选择 。 


以 某 款 游 戏 在 某 一 天 的 新 增 用 户 在 未 来 365 天 的 用 户 价值 周期 (LTV) 数据 为 例 ， 执 行 以 下 代码 得 到 图 4-76 所 示 的 交互 时 序 图 。 


ds 


(!require (dygraphs)) install.packages ("dygraphs") 
直下 TV 预测 曲线 
LIV <- read.csv ("LTV.csv") 
LIV.ts <- ts (LTV) 
dygraph (LTV .ts,main="LIV forecast") $>% 
dySeries ("V1",1label="LTIV", strokeWigdth = 2) %>% 
dyOoptions (colors = "black",fillGraph = TRUE,fillAlpha = 0.4) %>% 
dyHighlight (highlightCircleSize = 5, 
highlightSeriesBackgroundAlpha = 0.2, 
hideonMouseOut = FALSE) %>% 
dyAxis ("x", drawGrid = FALSE) %>% 
dyAxis ("y", label = "LTV (Li 
dyRangeSelector () 


十 十 十 十 十 十 十 二 VVvVVvY 


fe Time Value)") %$>% 
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图 4-75 ”利用 leaflet 函 数 在 地 图 上 标记 深圳 市 
3.DT 包 
DT 包 使 R 数 据 对 象 可 以 在 HTML 页 面 中 实现 过 滤 、 分 页 、 排 序 以 及 其 他 许多 功能 。 通 过 install.packages ("DT") 安装 DT 包 。 


以 营 尾 伦 数据 集 iris 为 例 ， 执 行 以 下 代码 ， 得 到 图 4-77 所 示 的 交互 数据 表格 。 


> library (DT) 
> datatable (iris) 


从 图 4-77 可 知 ， 芒 尾 花 数据 集 iris 一 共有 150 条 记录 ， 分 为 10 页 显示 ， 可 选择 右 下 角 进 行 翻 页 ， 默认 每 页 显示 10 条 记录 ， 可 以 通过 左上 角 选 择 每 页 的 显示 样本 数 ; 还 可 以 对 数据 进行 排序 等 操作 。 如 果 不 


想 输出 行 号 ， 将 参数 rownames 设 置 为 FALSE 即 可 。 


TT 4: LTV: 0.96 


LTV(Life Time Value) 
DD 和 们 训 


图 4-76 “利用 dygraphs 函 数 绘制 的 交互 时 序 图 
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图 4-77 利用 DT 包 得 到 交互 数据 表格 
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从 了 1 
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4.networkD3 包 
networkD3 包 可 绘制 D3 JavaScript 的 网 络 图 ，networkD3 包 通过 install.packages ("net-workD3") 安装 。 下 面 通过 两 个 例子 来 体验 使 用 networkD3 包 绘制 网 络 图 的 交互 效果 。 


首先 利用 simpleNetwork 函 数 绘制 一 个 简单 的 网 络 图 。 执 行 以 下 代码 得 到 图 4-78 所 示 的 简单 网 络 图 。 


> library (networkD3) 

> src <- sample (paste0 ("用 户 ",1:4),9,replace = 了 ) 

> target <- sample (paste0 ("用 户 ",，c(1,2,3,5,6,7)),9,replace = T) 
> networkData <- data.frame (src, target) 


> simpleNetwork (networkData, zoom=T) 


第 二 个 例子 是 利用 forceNetwork 函 数 绘 制 力 导向 图 。 力 导向 算法 假设 不 同 的 点 是 空间 的 球体 ， 任 意 球 之 间 都 具有 引力 和 斥 力 ， 通 过 力 的 相互 作用 ， 最 终 达 到 一 种 平衡 。 拖 动 中 间 的 图 里 的 任意 节点 ， 整 
个 网 络 就 会 被 拖 动 ， 并 达到 新 的 平衡 位 置 。 执 行 以 下 代码 得 到 图 4-79 所 示 的 力 导 向 图 。 


> # 加 载 数据 
> data (MisLinks) 
> data (MisNodes) 


> # 画图 

> forceNetwork (Links = MisLinks, Nodes = MisNodes, 

十 Source = "source", Target = "target", 
+ Value = "value", NodelID = "name", 

十 


Group = "group", opacity = 0.8) 


图 4-78 ”利用 simpleNetwotk 绘 制 简单 网 络 图 


图 4-79 ”利用 fotceNetwo 全 绘制 力 导 向 图 


5.pairsD3 包 


pairsD3 包 可 用 于 绘制 D3 散 点 图 和 矩阵。 直接 通过 install,packages (“pairsD3”) 安装 。 现 在 对 营 尾 伦 数 据 集 的 前 四 列 数据 绘制 散 点 图 矩阵 ， 并 按 物种 分 组 。 执 行 以 下 代码 得 到 的 结果 如 图 4-80 所 示 。 


> if(!require(pairsD3)) install.packages ("pairsD3") 


qu 
> pairsD3(iris[,1:4],group = iris[,5], 
+ labels = c(" 花 苯 长 度 "，" 花 苯 宽 度 "，" 花 辩 长度"，" 花 着 宽度 "，" 种 类 ") ) 


图 4-80 ”绘制 D3 散 点 图 矩阵 


6.scatterD3 包 


scatterD3 是 一 个 用 于 交互 式 散 点 图 可 视 化 的 HTML R 窗 口 小 部 件 。 它 基于 htmlwidgets R 包 和 d3.js javascript 库 。 直 接 通 过 install.packages (“scatterD3”) 安装 。 对 mtcars 绘 制 交互 散 点 图 ， 执 行 
以 下 代码 得 到 的 结果 如 图 4-81 所 示 。 


if(!require (scatterD3)) install.packages ("scatterD3") 
mtcarsSnames <- rownames (mtcars) 
scatterD3(data = mtcars, x = wt, y = mpg, lab = names, 


col var = cyl, symbol var = am 
xlab = "Weight", ylab = "Mpg", col lab = "Cylinders", 


> 
> 
> 
十 
十 
十 Symbol lab = "Manual transmission") 


Cylinders 
园 4 
3 6 
Toyota Corolla 图 
四 国 8 
rs Manual transmission 
只 0 
Fiat 128 二 1 
Lot 
o 本 人 
30 Mpg: 32.400 
Cylinders:- 4 
Manual fansmission- 1 
Fiat X19 
史 
Poesche 914-2 
Ee 
25 Mesc 240D 
+ 
Datsun 710 Mesc 230 
各 + 
Toyota Cpronqolvo 142E | Homet 4 Drive 
哪 13-0a Hs RX4 Wag 十 
三 总 
Ferrari Dino 
20 6 Merc280 Poniiac Firebird 
Homet bout 中 
Merc fc 
Nierc 450SL 
只 Me4c 450SE 
Foed Pantera L Chal 
» RRsostc 
15 os 者 360 宇 Ce pe 
+ Camaro 228 
+ 
Cadillaerieistiandinental 
10 中 中 | 
Weight 
1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 
图 4-81 绘制 D3 散 点 图 
7.wordcloud2 包 


wordcloud2 包 调用 一 个 JS 的 库 (wordcloud2.js) 实现 wordcloud。 与 旧 的 wordcloud 相 比 ， 新 的 wordcloud2 能 更 有 效 地 利用 词 与 词 的 间隔 来 插入 数据 ， 更 可 以 根据 图 片 或 者 文字 来 绘制 定制 化 的 词 
云 。 由 于 使 用 了 Rstudio 出 品 的 htmlwidgets 框 架 ，knitr 和 shiny 也 都 支持 。 


该 包 的 基本 函数 有 两 个 : 
. Wordcloud2: 提供 基本 的 词 云 功能 。 
:jlettetCloud: 使 用 选 定 的 词 绘制 词 云 。 


自 定 义 模式 允许 用 户 设 定 一 个 字符 ， 然 后 根据 这 个 字符 ， 生 成 一 个 形状 相同 的 词 云 。 执 行 以 下 代码 生成 字符 R 的 形状 ， 结 果 如 图 4-82 所 示 。 


> if(!require (wordcloud2)) devtools::install github ("lchiffon/wordcloud2") 
> letterCloud (demoFreqC[1:200,]，"R"，fontFamily = "微软 雅 黑 "， 
十 color = "random-light") 


类 理 估计 系统 如 学院 am 


图 4-82 ”绘制 生成 一 个 R 形 状 的 词 云 


8.timevis 包 


timevis 包 用 于 生成 互 式 时 间 线 可 视 化 ， 常 用 于 项 目 进 度 管理 的 甘 特 图 ， 通 过 install.packages ("timevis") 进行 安装 。 执 行 以 下 代码 得 到 的 结果 如 图 4-83 所 示 。 


end = c(NA, NA, "2016-12-04", NA) 


> # timevis 包 

> if(!require(timevis)) install.packages ("timevis") 

> data <- aqata.frame ( 

十 id = 1:4, 

十 content = CcC ("事项 一 " "事项 二 " 7 事项 三 "， "事项 四 ") ， 

十 start = CcC("2016-11-10", "2016-11-11", "2016-11-20", "2016-12-14 15:00:00")， 
十 

十 

> 


) 
timevis (data) 


1 3 
December 2016 


November 2016 


图 4-83 ”绘制 事件 管理 的 甘 特 图 


9.rpivotTable 包 
在 R 中 也 可 以 通过 rpivotTable 包 轻松 实现 Excel 中 的 数据 透视 表 功 能 。 可 通过 install github (c ("ramnathv/htmlwidgets",，"smartinsightsfromdata/rpivotTable") ) 命令 安装 。 执 行 以 下 代码 得 到 
的 初始 透视 表 如 图 4-84 所 示 。 


> library (rpivotTable) 
> mtcars$vs <- factor (ifelse (mtcars$vs==0, "自动 ", "手动 ")) 


> colnames (mtcars) [8] <- "传输 " 
> rpivotTable (mtcars) 


cyl dsp hp > drat 7 wt™ qsec 7 传输 an r gear 7 


图 4-84 生成 数据 透视 表 


在 图 4-84 中 ， 与 在 Excel 中 操作 数据 透视 表 相似 ， 可 以 通过 拖 忠 的 方式 统计 不 同 的 行列 数据 。 比 如 将 传输 拖 至 行 、am 拖 至 列 ， 并 选择 Table Barchart 的 展示 形式 ， 结 果 如 图 4-85 所 示 。 


图 4-85 ”生成 Table Barchart 透 视 表 


4.4 ”小结 


本 章 学 习 了 两 个 常用 的 高 级 绘图 扩展 包 。 首 先是 lattice 包 ， 它 提供 了 一 个 可 创建 栅栏 图 的 系统 ， 然 后 是 ggplot2 包 ， 它 有 一 个 全 面 的 图 形 语法 。 两 者 都 可 以 创建 美观 且 有 意义 的 数据 可 视 化 图 形 。 


随后 ， 探 究 了 一 些 可 实现 图 形 动态 交互 的 软件 包 ， 包 插 rCharts、recharts、plotly、googleVis、dygraphs、DT、networkD3 等 ， 利 用 这 些 包 ， 可 以 在 图 形 中 直接 与 数据 进行 交互 ， 更 好 地 实现 数据 探 
索 和 数据 可 视 化 。 


. 第 5 章 ”游戏 数据 预 处 理 
" 第 6 章 ”游戏 数据 分 析 的 常用 方法 
. 第 7 章 ”漏斗 模型 与 路 径 分 析 


- 第 8 章 ”留存 分 析 


. 第 11 章 ”收入 分 析 


第 5 草 “游戏 数据 预 处 理 


“垃圾 进 ， 垃 圾 出 (garbage in，garbage out) ”的 意思 就 是 在 做 数据 分 析 前 ， 不 对 原始 数据 进行 数据 准备 而 直接 进行 数据 分 析 工 作 ， 很 可 能 会 得 出 错误 的 结论 ， 错 误 的 结论 将 严重 误导 业务 方 接 下 
来 的 工作 。 因 此 一 个 数据 分 析 项 目 实践 中 有 和 多 达 60% 的 时 间 和 精力 是 用 来 数据 抽样 、 数 据 清洗 和 数据 转换 的 。 


5.1 ”数据 抽样 


.| 


“抽样 ”对 于 数据 分 析 和 挖掘 来 说 是 一 种 常见 的 前 期 数据 处 理 技术 和 阶段 。 一 个 常用 的 需 


数据 抽样 的 必要 性 


通过 抽样 来 解决 的 业务 场景 就 是 : 在 很 多 小 概率 事件 、 稀 有 事件 的 预测 建 模 过 程 中 ， 比 如 游戏 用 户 付 费 转化 


率 ， 在 全 部 注册 用 户 中 ， 能 转化 成 付费 用 户 的 只 占 10% 甚 至 更 少 ， 这 种 情况 属于 类 失衡 问题 ， 即 在 数据 中 可 能 会 存在 某 个 或 某 些 类 别 下 的 样本 数 远大 于 另 一 些 类 别 下 样本 数目 的 情况 。 如 果 不 对 数据 进行 处 
类 


理 就 建 模 ， 建 立 的 分 类 器 就 倾向 于 预测 数据 较 多 的 一 类 ， 显 然 该 分 


器 是 无 效 的 ， 并 且 这 种 无 效 是 由 于 训练 集中 类 别 不 均衡 导致 的 。 


克服 类 失衡 问题 常用 的 技术 有 以 下 两 种 : 


* 偏 置 学 习 过 程 的 方法 ， 应 用 特定 的 对 少数 类 更 敏感 的 评价 指标 。 


“ 用 抽样 方法 来 操作 训练 数据 ， 从 而 改变 类 的 分 布 。 


有 多 种 抽样 方法 用 于 改变 数据 集中 类 的 失衡 ， 常 用 的 有 以 下 两 种 : 


" 欠 采 样 法 ， 它 从 多 数 类 中 选择 一 小 部 分 案例 ， 并 把 它们 和 少数 类 个 案 一 起 构成 一 个 有 更 加 平衡 的 类 分 布 的 数据 集 。 


" 过 采样 法 ， 它 采用 另外 的 工作 模式 ， 使 用 某 些 进程 来 复制 少数 类 个 案 。 


在 数据 建 模 阶段 ， 一 般 需 要 将 样本 分 成 独立 的 三 部 分 : 训练 集 (train set) 、 验 证 集 (validation set) 和 测试 集 (test set) 。 其 中 ， 训 练 集 用 来 估计 模型 ， 验 证 集 用 来 确定 网 络 结构 或 者 控制 模型 


程度 的 参数 ， 测 试 集 检 验 最 终 选 择 最 优 模型 的 性 能 如 何 。 一 个 典型 的 划分 是 训练 集 占 总 样本 的 70%， 而 其 他 各 占 15%， 三 部 分 都 是 从 样本 中 随机 抽取 。 


复杂 


样本 少 的 时 候 ， 上 面 的 划分 就 不 合适 了 ， 常 用 的 是 留 少 部 分 做 测试 集 ， 然 后 对 其 余 N 个 样本 采用 K 折 交叉 验证 法 ， 即 将 样本 打 乱 ， 然 后 均匀 分 成 K 份 ， 轮 流 选择 其 中 K-1 份 训练 ， 剩 余 的 一 份 做 验证 ， 计 
算 预测 误差 平方 和 ， 最 后 对 K 次 的 预测 误差 平方 和 再 做 平均 作为 选择 最 优 模型 结构 的 依据 。 


5.1.2 ”类 失衡 处 理 方法 : SMOTE 


有 一 个 系统 的 构造 人 工 数据 样本 的 方法 是 SMOTE (Synthetic Minority Over-sampling Technique) 。 在 R 中 ，DMwR 包 中 的 SMOTE () 函数 可 以 实现 SMOTE 方 法 。 主 要 参数 有 如 下 三 个 : 
perc.over， 过 采样 时 ， 生 成 少数 类 的 新 样本 个 数 ; k， 过 采样 中 使 用 K 近 邻 算法 生成 少数 类 样本 时 的 K 值 ， 默 认 是 5;，perc.under， 欠 采样 时 ， 对 应 每 个 生成 的 少数 类 样本 ， 选 择 原始 数据 多 数 类 样本 的 个 
数 。 例 如 ，Pperc.over=500 表 示 对 原始 数据 集中 的 每 个 少数 样本 ， 都 将 生成 ?个 新 的 少数 样本 ; perc.under= 80 表 示 从 原始 数据 集中 选择 的 多 数 类 的 样本 是 新 生 的 数据 集中 少数 样本 的 80%。 


先 利用 Thyroid Disease 数 据 来 演示 SMOTE 算 法 。 首 先 下 载 和 清洗 数据 : 利用 read.csv 函 数 从 网 上 下 载 数据 ， 并 进行 删除 冒号 和 句号 的 清洗 工作 ， 最 后 重 命名 列 。 实 现代 码 如 下 。 


> 下 载 数据 
> hyper <-read.csv( 


'ht 


header=F) 


ous 


>names <- read.csv( 
tp://archive.ics.uci.edu/ml/machine-learning-databases/thyroid-disease/hypothyroid.names', 


t\p://archive.ics.uci.edu/ml/machine-learning-databases/thyroid-disease/hypothyroid.data', 


Col 
Gol 


[1 


接 下 来 ， 将 第 一 列 的 列 名 由 "hypothyroid，negative " 改 成 target， 并 将 该 列 中 的 因子 水 平 negative 变 成 0， 其 他 值 变 成 1， 并 检查 0、 


Fn 


header=F, sep="\ 
> # 对 对 和 象 names 删 除 冒 

> names <- gsub (pat 

> # 对 对 象 hyper 的 列 进行 重 命名 
> 

> 


£1) [[1]] 
号 和 句号 


tern =":|[.]", replacement="", x = names) 


names (hyper) <-names 
names (hyper) 


"hypothyroid, negative" "age" 

"sex" "on thyroxine" 
"query on thyroxine" "on antithyroid medication" 
"thyroid surgery" "query hypothyroid" 
"Guery hyperthyroid" "pregnant" 

TolGkY "tumor" 

TRY "goitre" 

"TSH measured" TS” 

"T3 measured" "JT 

"TT4 measured" Wa 

"T4U measured" "T4U" 

"FTI measured" 了 下 

"TBG _ measured" "TBG" 


> colnames (hyper) [1]<-"target" 
> colnames (hyper) 
[1] "target" "age" 
[3] "sex" "on thyroxine" 
[5] "query on thyroxine" "on antithyroid medication" 
[7] "thyroid surgery" "query hypothyroid" 
[9] "query hyperthyroid" "pregnant" 
[11] “sick" "tumor™" 
[13] lithium "goitre" 
[15] "TSH measured" "TSH" 
[17] "T3 measured" 了 RS” 
[19] "TT4 measured" "TTA" 
[21] "T4U measured" "TAU" 
[23] "FTI measured" VEL" 
[25] "TBG measured" "TBE” 
> hypers$target<-ifelse (hyper$target=="negative",0,1) 
> # 检查 下 0、1 的 结果 
target) 


> table (hypersi 
0 1 


3012 151 


> prop.table (table (hypers$target)) 
1 


0 
0.95226051 0.04773949 


可 见 ，1 仅 占 数 据 的 ?%， 这 显然 属于 严重 的 类 失衡 数据 ， 也 是 罕见 事件 。 我 们 在 进行 下 一 步 建 模 前 ， 需 要 对 数据 进行 类 失衡 处 理 。 


1 的 结果 。 实 现代 码 如 下 。 


现在 ， 利 用 SMOTE 对 数据 hyper 的 target 变 量 进 行 类 失衡 处 理 。 设 置 参数 perc.over=100， 表 示 对 原始 数据 集中 的 151 个 少数 样本 ， 都 将 生成 1 个 新 的 样本 ， 一 共有 151+ 151 = 302 个 少数 样本 ; 
perc.under=200 表 示 从 原始 数据 集中 选择 的 多 数 类 的 样本 是 新 生 的 数据 集中 少数 样本 的 200%， 即 151x2009% = 302 个 多 数 样 本 ， 达 到 0、1 数 据 相 同 。 


# 


i 


VVV 提 大 VVVvVYVvVYV 


0 
302 


加 载 DMwR 包 


1 
302 


# 将 变量 Larget 变 成 因子 型 
hyperStarget <- as .factor (hyperStarget) 


f(!require (DMwR) ) install.packages ("DMwR") 载 入 需要 的 程 辑 包 : DMwR 载 入 需要 的 程 辑 包 : lattice 载 入 需要 的 程 辑 包 : grid 
# 进行 类 失衡 处 理 
perc.over=100: 表 示 少 数 样本 数 =151+151*100%=302 

perc.under=200: 表 示 多 数 样本 数 (新 增 少数 样本 数 *200%=151*200%=302) 
hyper new <- SMOTI 
# 查看 处 理 后 变量 target 的 0、1 个 数 
table (hyper new$target) 


E(target~.,hyper,perc.over = 100,perc.under = 200) 


为 了 进一步 熟悉 SMOTE 参 数 设置 的 用 法 ， 将 参数 perc.over 设 为 200， 表 示 对 原始 数据 集中 的 150 个 少数 样本 ， 都 将 生成 两 个 新 的 样本 ， 


设 为 300， 表 示 从 原始 数据 集中 选择 的 多 数 类 的 样本 是 新 生 的 数据 集中 少数 样本 的 300%， 即 151x200%x300% = 906。 


> # perc.over=200: 表 示 少 数 样本 数 =151+151*200%=453 

> # perc.under=300: 表 示 多 数 样本 数 (新 增 少数 样本 数 *300%=151*200%*300%=906) 
> hyper newl <- SMOTE (target~.,hyper,perc.over = 200,perc.ungder = 300) 
> # 查看 处 理 后 交 量 target 的 0、1 个 数 
> 
0 
6 


table (hyper newlstarget) 
1 
453 


# 查看 是 否 付 费 的 类 别 占 比 (0: pn 1: 付 费 ) 
prop.table (table (user$ 是 否 付 费 
0 下 


付费 这 个 变量 ， 分 析 数 据 是 人 否 属于 类 失衡 数据 及 如 何 调整 相同 占 比 。 实 现代 码 如 下 。 
> # 导入 数据 
> user <- teaq.csv(" 活 跃 用 户 是 否 付费 数据 .csv"yI) 
> # 查看 变量 名 
> colnames (user) 
[1] "用 户 id" "是 否 付 费 " 
[3] "注册 至 今 距 离 天 数 " "最 后 一 周 登 录 天 数 " 
[5] "最 后 一 周 登录 次 数 "” "最 后 一 周 0.8 点 登录 次 数 " 
[7] 最 后 一 周 8. 18 点 登录 次 数 " "最 后 一 周 18 . 24 点 登录 次 数 " 
> 
> 


.8589596 0.1410404 
# 将 是 否 付费 变量 转换 成 因子 型 


0 
> 
> user$ 是 否 付 费 <- as.factor (user$ 是 否 付 费 ) 
> 
> 


library (DMwR) 
# 对 类 失衡 数据 进行 处 理 
>user new <- SMOTE (是 否 付 费 ~.，, data=user,perc.over=100,perc.under=200) 
> # 查看 处 理 后 的 结果 
> table (user new$ 是 否 付 费 ) 
0 1 
34868 34868 


5. 


cd 


.3 数据 随机 抽样 : sample 消 数 


R 中 的 sample () 函数 可 以 实现 数据 的 随机 抽样 。 其 基本 表达 形式 为 : 


sample (x, size, replace = FALSE, prob = NULL) 


其 中 x 是 数值 型 向 量 ，size 是 抽样 个 数 ，replace 表 示 是 否 有 放 回 抽样 ， 默 认 FALSE 是 无 放 回 抽 样 ，TURE 是 有 放 回 抽样 。 


接 下 来 ， 通 过 一 个 小 例子 来 理解 sample 浮 数 。 首 先 创建 对 象 x<， 由 1~10 组 成 。 先 对 x 进行 无 放 回 抽样 ， 抽 取 8 次 并 将 


> set.seed(1234) 
> ## 创建 对 象 x， 有 1~ 人 
> x <- seq(1,10); 

[1] 1 2 3 4 5 6 7 8 910 
> # 利用 Sample 函 数 对 X 进 行 无 放 回 抽样 
> a <- sample (x,8,replace=FALSE);a 
[1] 26589417 
> 者 利用 Sample 函 数 对 X 进 行 有 放 回 抽样 
> b <- sample (x,8,replace=TRUE);b 
[1] 7 6 7 6 310 3 9 


，b 中 抽取 的 元 素 中 有 重复 值 。 如 果 要 抽取 的 样本 数 大 于 x 的 长 度 ， 就 需要 将 replace 设 置 为 TRUE (有 放 回 抽样 ) ， 


> (c <- sample (x,15,replace = F)) 
Error in sample.int(] length (x x), size, replace, prob) 

cannot take a Samp] e SESE than the population when ‘replace = FALSE 
> (c <- sample (x,15,replace = T)) 

[1 3 3-2 4423 3 610 9 1 3 


通过 上 例 的 学 习 ， 我 们 已 经 掌握 了 SMOTE 函 数 的 基本 用 法 。 假 设 有 一 份 天 于 本 周 活跃 用 户 是 否 付费 的 数据 ， 包 括 用 户 最 
费 


共有 151+ 151x200% = 453 个 少数 样本 ; 将 参数 perc.under 


近 一 周 活路 的 天 数 、 不 同时 间 段 的 登录 次 数 以 及 是 否 付费 等 字段 。 现 在 ,研究 是 


结果 赋予 对 象 3， 再 次 对 x 进 行 


不 然 会 报错 。 


有 放 回 抽样 ， 抽 取 8 次 并 将 


在 12 万 本 周 活跃 用 户 的 数据 中 ， 假 如 想 随 机 抽取 1 万 活跃 用 户 进行 探索 性 分 析 。 执 行 以 下 代码 ， 分 别 查 看 user 与 user_sample 变 量 “ 是 否 付 费 ” 中 的 0、1 占 比 。 


> # 导入 数据 
> user <- read.csv ("活跃 用 户 是 否 付 费 数据 .csv", 工 ) 

> # 查看 数据 user 的 行 数 

> nrow (user) 

1] 123610 

# 利用 sample 函 数 对 user 数 据 进行 无 放 回 抽 样 

set.seed (1234) 

# 提取 下 标 集 

index <- sample (nrow (user),10000,replace=FALSE 
# 将 抽样 数据 赋予 对 象 user sample 

user sample <- user[index， ] 

# 查看 user sample 的 行 数 

nrow (user sample) 

1] 10000 


VVVVVVVYVon 


> round (prop.table (table (user$ 是 否 付 费 ) ) , 3) 
0 1 

0.859 0.14] 

> found (prop.table (table (user sample$ 是 否 付 费 )) 
0 1 

0.861 0.139 


可 见 ， 进 行 简单 抽样 时 ，sample 是 在 全 部 样本 中 抽取 指定 的 样本 数 。 如 果 想 在 抽样 后 让 “是 否 付费 ”的 0、1 占 比 情况 与 全 样本 时 一 致 ， 可 以 执行 以 下 操作 。 


# 计算 出 “是 否 付 费 ” 的 0 的 占 比 
rate <- sum(user$ 是 否 付 费 ==0) /nrow (user) 
# 提取 未 付费 用 户 的 下 标 子 集 
d <- 1:nrow (user) 
inqex1 <- sample (d[user$ 是 否 付 费 ==0],10000*rate) 
# 提取 付费 用 户 的 下 标 子 集 
index2 <- sample(dq[userS$ 是 否 付 费 ==1],10000x (1-rate)) 
# 将 抽样 数据 赋予 对 象 User_samplel 
user samplel <- userl[c (indexl,index2),] 
# 查看 “是 否 付 费 ” 的 0、1 占 比 
round (Prop .table (table (user samplel$ 是 否 付 费 ) ) ，3) 
0 ~ 


MMYVMYMMYMMYMMYMMYMMYMMYVYV 


.859 0.141 


CD 


5.1.4 ”数据 等 比 抽 样 : createDataPartition 国 数 


结果 赋予 对 象 b。 执 行 以 下 代 


以 上 方法 虽然 实现 了 按照 某 个 因子 变量 的 类 
等 比例 抽样 。 其 函 


CE 


别 进行 等 比例 抽样 ， 但 是 当 类 别 多 时 ， 代 码 会 比较 烦琐 。 现 在 介 


函数 基本 表达 形式 为 : 


eateDataPartition(y，times = 1,p = 0.5,1list = TRUE,groups = min(5, length (y))) 


绍 caret 包 中 的 createDataPartition 了 为数 ， 它 可 以 快速 实现 数据 按照 因子 变量 的 类 别 进 行 快速 


否 是 list 形 式 ， 默 认为 TRUE，groups 表 示 如 果 输 出 变量 为 数值 型 数据 ， 则 默认 按 分 位 数 分 组 进 


其 中 y 是 一 个 向 量 ，times 表 示 需 要 进行 抽样 的 次 数 ，p 表 示 需 要 从 数据 中 抽取 的 样本 比例 ，list 表 示 结 果 是 

行 取样 。 
以 莺 尾 花 数 据 集 为 例 ， 我 们 想 按 照 物种 分 类 变量 进行 等 比例 随机 抽取 其 中 10% 的 样本 进行 研究 。 实 现代 码 如 下 。 
> # 载 入 caret 包 ,如 果 本 地 未 安装 ， 就 在 线 安装 caret 包 


VVYVvVYV 


WN YY Vr 
ER 


> 


0 


times=1 表 示 抽 样 只 进 


Els 


if(!require(caret)) install.packages ("caret") 


# 提取 下 标 集 
splitindex <- createDataPartition (iris$Species,times=1,p=0.1,1ist=FALSE) 
splitingdex 
Resamplel 
[1,] 7 
[2,] 15 
[3，] 28 
[4,] 41 
[5,] 48 
[6，] 59 
[7,] 66 
[8,] 80 
[9，] 95 
L0，] 98 
LT1，] 124 
L2，] 于 2 
L3，] 128 
L4，] 137 
L5，] 147 
# 提取 符合 子 集 
sample <- iris[splitindex,|] 
# 查看 Species 变量 中 各 类 别 的 个 数 和 占 比 
table (sampleSSpecies) 
setosa versicolor virginica 
5 5 5 
prop.table (table (sample$Species)) 
setosa versicolor virginica 


3333333” 0.3333333 0.3333333 


进行 一 次 ，p=0.1 表 示 抽 取 全 部 样本 的 10% (150x10%=15) 


> # 提取 下 标 集 
> splitindexl <- createDataPartition (iris$Species,times=1,p=0.1,1ist=TRUE) 
> # 查看 下 标 集 
> splitindex] 
$sResample] 

[1] 11 14 16 28 31 63 68 82 95 100 102 110 116 122 146 
> # 提取 子 集 
> iris[splitindexl$Resamplel,] 

Sepal.Length Sepal.Width Petal . Length Petal .Width Species 

1 5.4 3 Ws 0.2 setosa 
14 4.3 3.0 1.1 0.1 setosa 
16 Sal 4.4 5 0.4 setosa 
28 Si2 359 Li 0.2 setosa 
31 4.8 0 1.6 0.2 setosa 
63 6.0 之 之 4.0 1.0 versicolor 
68 Ss8 2.7 4.1 1.0 versicolor 
82 Sed xd 3.7 1.0 versicolor 
95 S66 区 本 4.2 1 .3 versicolor 
100 Ss 2.8 4.1 1.3 versicolor 
102 S558 2 7 Sa 1.9 virginica 
110 7.2 3.6 6 Peiegel=| 
116 6.4 3%2 953 2.3 virginica 
122 Ss6 2..8 459 2.0 virginica 
146 6.7 3:0 5..2 2.3 virginica 


将 times 设 置 为 2 时 ， 将 按照 物种 种 类 随机 等 比例 抽取 10% 样 本 两 次 ， 执 行 


以 下 代码 。 


> # 设置 times=2 
> splitindex2 <- createDataPartition (iris$Species,times=2,p=0.1,1ist=TRUE) 
> splitindex2 
$sResamplel 

[1] 8 16 17 23 41 62 64 90 96 99 109 111 113 116 127 
$sResample2 

[1] 4 10 27 34 38 60 72 76 81 94 101 108 113 134 142 


在 12 万 本 周 活跃 用 户 的 数据 中 ， 


MYVTMYMMYMMYMMYMMVYV 


CD 


前 文 提 到 在 做 建 模 时 需要 对 数据 进 


例如 ， 把 user 数 据 集 随机 分 成 两 部 分 


以 上 抽样 的 方式 是 从 全 量 样本 中 随机 抽取 709 作 为 训练 集 ， 剩 下 的 30% 作 为 测试 集 


> 
> 


0 . 
> 


并 


假如 我 们 想 按照 “是 否 付 费 ” 的 比例 随机 抽取 1 万 活跃 用 户 i 


# 导入 数据 

User <- read.csv ("活跃 用 户 是 否 付 费 数据 .csv", 工 ) 
# 将 “是 否 付 费 ” 改 为 因子 型 变量 

USer$ 是 否 付 费 <- as .factor (user$ 是 否 付 费 ) 


# 提取 下 标 集 


ind <- crea 


teDataPartition (user$ 是 否 付 费 ,p=10000/nrow (user)， 


times=1, 1ist=FALSE) 
# 查看 子 集中 0、1 占 比 
prop.table (table (user[ing, ' 是 否 付费 '])) 
0 1 


.8589141 0.1410859 


J 分 区 (如 训练 集 : 测试 集 =70%: 30%) ， 


， 其 中 70% 作 为 训练 集 ， 剩 下 的 30% 作 为 测试 集 。 执 行 以 下 代码 。 


# 提取 训练 数据 集 的 下 标 

ind <- sample (nrow (user) 
# 构建 训练 集 数据 

traindata <- user[ind,] 
# 构建 测试 集 数 据 


testdata <- user[-ind,] 


10.7*nrow (user) ,replace=F) 


这 样 就 可 能 存在 “ 


# 查看 “是 否 付 费 ” 的 0、1 占 比 
prop.table (table (user$ 是 否 付 费 )) 

0 1 

8589596 0.1410404 
prop.table (table (traindata$ 是 否 付 费 )) 


， 将 list 设 置 为 FALSE，splitindex 返 


此 时 可 以 利用 sample 函 数 进行 


是 否 付费 ” 变 


回 一 个 和 矩阵， 如 果 将 list 设 置 为 TRUE， 则 返回 列表 形式 。 代 码 如 下 。 


进行 探索 性 分 析 。 执 行 以 下 代码 。 


无 放 回 随机 抽取 70% 的 数据 作为 训练 集 ， 另 外 30% 的 数据 作为 测试 集 


灯 


pa KN 


量 中 的 0、1 占 比 会 有 所 不 同 。 现 在 查看 它们 各 自 的 “是 否 付费 ”中 0、1 的 占 比 情 


0 
0.8584026 0.1415974 
> prop.table (table (testdata$ 是 否 付 费 )) 

0 | 


0.8602594 0.1397406 


， 三 份 数 据 的 “是 否 付 费 ”0、1 占 比 有 所 差别 。 如 果 希 望 训练 集 和 测试 集中 的 “是 否 付 费 ” 中 的 0、1 占 比 与 全 量 数据 中 的 占 比 相同 ， 可 以 采用 sample 按 照 每 个 因子 类 别 分 别 抽取 70% 再 合并 的 方式 
了 数据 分 区 ， 此 处 用 createDataPartition 函 数 按照 “是否 付 费 ” 变 量 进行 等 比例 抽样 后 再 分 区 来 演示 。 


library at 
# 将 “是 否 付 费 ” 变 量 转换 成 因子 型 
USEr$ 是 否 了 人 factor (user$ 是 否 付 费 ) 
# 构建 训练 数据 下 标 集 
idx <- createDataPartition (user$ 是 否 付 费 ,p=0.7,1ist=FALSE 
# 构建 训练 数据 集 
train <- user[idx,] 
# 构建 测试 数据 集 
test <- user[-idx,] 
# 查看 “是 否 付费 ” 的 0、 1 占 比 
prop.table (table (user$ 是 否 付 费 )) 
0 - 


~ 一 
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.8589596 0.1410404 
prop.table (table (train$ 是 否 付 费 )) 
. | 


OO 


V 


.8589589 0.1410411 
> prop.table (table (test$ 是 否 付 费 )) 


OO 


0 1 
.8589612 0.1410388 


OO 


5.1.5 ”用 于 交叉 验证 的 样本 抽样 


有 时 候 ， 我 们 可 能 需要 利用 N 折 交叉 验证 的 方法 来 提高 模型 结果 的 可 靠 性 。 方 法 就 是 : 随机 把 下 标 分 配给 1，2，3，…，n 个 数字 ， 也 就 是 把 数据 下 标 随机 分 成 N 份 ， 然 后 每 次 提取 一 份 作为 测试 集 ， 其 
他 N-1 份 在 一 起 作为 训练 集 ， 用 模型 进行 拟 合 ， 记 下 结果 和 误差 ， 如 此 下 去 ， 一 共 做 N 次 ， 最 后 把 误差 平均 起 来 查看 模型 的 准确 性 。 


下 面 利用 sample 函 数 构造 为 交叉 验证 服务 的 5 个 训练 集 和 测试 集 。 执 行 以 下 代码 。 


> ## zz1 为 所 有 观测 值 的 下 标 

n <- nrow (user) ;zzl1 <- 1l:n 
# zz2 为 1:5 的 随机 排列 
set.seed (1234) 

222 <- rep(1:5,ceiling(n/5)) [1:n] 
ZZ2 <- Sa e (2Z22,n) 

# 构建 训练 集 及 测试 集 

forl(i in 工 :5) { 

m <- zz1 [zz2==1i] 

train <- user[-m,] 

test <- userl[m,] 


# 接 下 来 就 可 以 利用 训练 集 建立 模型 ， 测试 集 验 证 模型 ， 并 计算 5 次 MSE 


PvVvVV YY Y 


+ ] 


以 上 代码 进行 随机 抽样 后 ， 也 会 存在 每 份 抽样 数据 的 目标 变量 “是 否 付费 ”中 的 0、1 占 比 不 一 致 的 情况 ， 此 时 可 以 利用 createDataPartition 消 数 按照 “是 否 付费 ”变量 进行 等 比例 分 成 5 份 再 构建 交叉 
验证 的 训练 集 和 测试 集 ， 感 兴趣 的 话 可 以 自行 党 试 。 


下 面 介 绍 caret 包 中 的 createFolds 函 数 和 createMultiFolds 函 数 。createFolds 函 数 的 基本 形式 为 : 


createFolds(y, k = 10, list = TRUE, returnTrain = FALSE) 


其 中 y 是 要 依据 分 类 的 变量 ; k 指 定 k 重 交叉 验证 的 样本 ， 默 认为 10 重 ,每 重 的 样本 量 为 总 量 /k; list 表 示 是 否 以 列表 或 和 矩阵 的 形式 存储 随机 抽取 的 索引 号 ， 默 认为 TRUE; returnTrain 表 示 是 否 返 回 抽样 
的 真实 值 ， 默 认 返 回 样本 的 索引 值 。 


createMultiFolds 函 数 的 基本 表达 式 为 


createMultiFolds(y, k = 10, times = 5) 


其 中 k 指 定 k 重 交叉 验证 的 样本 ， 默 认为 10 重 。 每 重 的 样本 量 为 总 量 /k; times 指 定 抽样 组 数 ， 默 认为 5 组 〈 每 组 中 都 有 10 重 抽样 ) 。 


续 以 useI 数 据 为 例 ， 按 照 “ 是 否 付费 ”等 比例 分 成 5 份 。 执 行 如 下 代码 。 


> user$ 是 否 付 费 <- as.factor (user$ 是 否 付 费 ) 


> index <- createFolds (user$ 是 否 付 费 , k=5,1ist=FALSE) 
> prop.table (table (user[index==1, ' 是 否 付 费 yy 

0 1 
0.8589515 0.1410485 


> prop.table (table (user [index==2, ' 是 否 付 费 '])) 


.8589515 0.1410485 
> prop.table (table (user [index==3, ' 是 否 付 费 '])) 
| 


CD 


.8589863 0.1410137 
> prop.table (table (user [index==4, ' 是 否 付 费 '])) 
- ' 


OO 


.8589515 0.1410485 
> prop.table (table (user [index==5, ' 是 否 付 费 '])) 


OO 


0 1 
.8589572 0.1410428 


OO 


可 见 ， 每 份 数 据 都 是 按照 “是 否 付费 ”进行 等 比例 抽样 的 ， 然 后 可 以 按照 上 面 的 方法 构建 5 折 交 叉 验 证 的 训练 集 和 验证 集 ， 进 行 建 模 和 评估 。 


5.2” 效 据 清 洗 
数据 质量 分 析 是 数据 预 处理 的 前 提 ， 是 数据 挖掘 分 析 结 论 有 效 性 和 准确 性 的 基础 ， 其 主要 任务 是 检查 原始 数据 中 是 否 人 存在 脏 数 据 ， 脏 数据 一 般 是 指 不 符合 要 求 ， 以 及 不 能 直接 进行 相应 分 析 的 数据 。 在 
见 的 数据 挖掘 工作 中 ， 脏 数据 包括 : 不 一 致 的 值 、 缺 失 值 和 异常 值 。 
数据 不 一 致 性 是 指 各 类 数据 的 矛盾 性 、 不 相 容 性 ， 其 一 是 数据 源 的 描述 不 一 致 造成 的 ， 二 是 存在 重复 的 记录 造成 的 ， 三 是 不 满足 既定 的 一 致 性 规则 造成 的 。 


本 节 主 要 分 析 数 据 中 的 缺失 值 和 异常 值 进行 分 析 。 


5.2.1 ”缺失 值 判断 及 处 理 


1. 识 别 缺 失 值 

数据 的 缺失 主要 包括 记录 的 缺失 和 记录 中 某 个 字段 信息 的 缺失 ， 两 者 都 会 造成 分 析 结 果 不 准 确 。 一 般 数据 缺失 主要 是 由 以 下 几 个 原因 造成 的 。 
. 有 些 信息 暂时 无 法 获取 ， 或 者 获取 信息 的 代价 太 大 。 

. 在 调查 访问 中 ， 被 访问 者 拒绝 透露 相关 信息 ， 导 致 数据 缺失 。 

. 由 于 数据 采集 设备 故障 、 存 储 介质 故障 、 传 输 媒 体 故障 等 机 械 原因 而 丢失 。 

处 理 缺 失 值 的 基本 步骤 是 : 首先 识别 缺失 值 ， 然 后 检查 导致 数据 缺失 的 原因 ， 最 后 删除 包含 缺失 值 的 记录 或 用 合理 的 数值 替代 ( 插 补 ) 缺失 值 。 


R 中 的 缺失 值 以 NA (Not Available) 表示 ， 判 断 数据 是 否 存在 缺失 值 的 函数 有 两 个 ， 最 基本 的 函数 是 is.na () ， 它 可 以 应 用 于 向 量 、 数 据 框 等 多 种 对 象 ， 返 回 逻辑 值 。 当 元 素 为 缺失 值 时 ， 返 回 
TRUE， 当 元 素 有 真实 值 时 ， 返 回 FALSE。 例 如 ， 令 y<-c (1，2，3，NA) ， 则 is.na (y) 返回 向 量 c (FALSE，FALSE，FALSE，TRUE) 。 


有 一 份 棋牌 类 玩家 的 玩 牌 数据 ， 包 括 玩 家 的 性 别 、 等 级 、 站 内 好 友 数 、 忌 次 数 、 玩 牌 局 数 等 信息 。 首 先 将 数据 读 入 R 中 ， 由 于 数据 中 有 缺失 值 ， 所 以 利用 read.csv 遂 数 读 入 数据 时 ， 需 要 增加 
na.strings="NA",。 
> # 导入 玩家 的 玩 牌 游戏 数据 


> player <- read.csv ("玩家 玩 牌 数据 .csv",T,na.strings = "NA") 
> # 查看 前 六 行 


> head (player) 用 户 id 性 别 等 级 站 内 好 友 ” 了 验 值 积分 登录 总 次 数 玩 牌 局 Te 数 

1 73795915 0 2 3 0 2 

2 7795912 0 3 2 - 0 2 : 1 
3 7795909 1 0 0 0 5 3 NA NA 
4 7795906 0 0 0 0 0 下 NA NA 
D 7795900 0 0 3 0 0 2 NA NA 
6 7795898 0 2 . 10 0 2 NA NA 身上 货币 量 
上 1000 

2 800 

le 800 

4 0 

5 800 

6 760 


可 见 ，3、4、5、6 行 的 玩家 有 登录 但 没有 玩 牌 ， 利 用 is.na 函 数 判 断 “ 玩 牌 局 数 ” 各 值 是 否 为 缺失 值 ，TURE 为 缺失 值 ，FALSE 为 非 缺 失 值 。 


> # 利用 is.na 函 数 判 断 “ 玩 牌 局 数 ” 变 量 各 值 是 否 为 缺失 值 
> is.na (player$ 玩 牌 局 数 ) 
[1] FALSE FALSE TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE TRUE FALSE FALSE FALSE:::: 
[6231] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE 
# 统计 缺失 值 与 非 缺 失 值 的 个 数 

> table (is.na (player$ 玩 牌 局 数 )) 

FALSE TRUE 
3094 3146 


有 3146 个 玩家 是 有 登录 但 是 没有 玩 牌 的 。 在 R 中 ， 逻 辑 值 TRUE 和 FALSE 分 别 等 价 于 数值 1 和 和 0， 可 用 sum () 和 mean () 函数 来 统计 缺失 值 的 个 数 和 占 比 。 


# 计算 缺失 值 个 数 

sum (is.na (player$ 玩 牌 局 数 )) 
1] 3146 

# 计算 缺失 值 占 比 

mean (is.na (player$ 玩 牌 局 数 )) 
1] 0.5041667 


VVmVY 


得 到 的 结果 跟 上 面 的 一 致 ， 共 有 3146 个 玩家 没有 玩 牌 记录 ， 占 到 总 人 数 的 50%。 
另 一 个 判断 数据 缺失 的 函数 是 complete.cases () ， 可 用 来 识别 矩阵 或 数据 框 中 没有 缺失 值 的 行 。 若 行 都 包含 完整 的 实例 ， 则 返回 TRUE 的 逻辑 向 量 ; 若 行 有 一 个 或 多 个 缺失 值 ， 则 返回 FALSE。 


以 player 数 据 为 例 ， 我 们 想 查看 完整 实例 有 多 少 ， 执 行 以 下 代码 。 


> # 利用 complete.cases 函 数 查 看 完整 实例 
> sum(complete.cases (player)) 
[1] 2000 


在 决定 如 何 处 理 缺 失 数据 前 ， 了 解 哪些 变量 有 缺失 值 、 数 目 有 多 少 、 是 什么 组 合 形式 等 信息 非常 有 用 。 接 下 来 介绍 探索 缺失 值 模式 的 图 表 及 相关 方法 。 
mice 包 中 的 md.pattern () 函数 可 生成 一 个 以 矩阵 或 数据 框 形 式 展示 缺失 值 模式 的 表格 ， 该 函数 只 有 一 个 参数 ， 就 是 要 判断 的 矩阵 或 者 数据 框 。 


用 md.pattern 函 数 查看 player 数 据 的 缺失 值 模式 。 执 行 以 下 代码 。 


> # 用 md.pattern 函 数 查 看 player 的 缺失 值 模式 
> if(!require(mice)) install.packages ("mice") 
> md.pattern (player) 

用 户 id 性 别 等 级 站 内 好 友 数 2 经 验 值 积分 登录 总 次 数 身上 货币 量 玩 牌 局 数 Wn 
2000 1 1 
1094 ] ] ] ] ] ] 1 1 TL 0 
3146 ] ] ] ] ] ] 由 1 0 0 2 


0 0 0 0 0 0 0 0 3146 4240 7386 


输出 结果 中 列 中 的 1 表示 没有 缺失 值 模式 ，0 表 示 存 在 缺失 数据 模式 。 第 一 列表 示 符 合 这 种 模式 的 样本 数 有 多 少 。 比 如 ， 第 1 行 的 2000 表 示 有 2000 个 样本 是 完整 的 ， 下 面 的 1094 表 示 有 1094 个 样本 缺少 
了 “ 赢 牌 局 数 ”变量 的 值 ， 第 一 列 最 后 一 个 数字 3146 表 示 有 3146 个 样本 在 “ 玩 牌 局 数 ” 和 “ 赢 牌 局 数 ”都 有 缺失 。 最 后 一 列表 示 该 模式 的 缺失 变量 个 数 ， 第 一 行 0 表示 没有 变量 有 缺失 值 ， 第 二 行 1 表示 有 一 
个 变量 值 缺 失 ， 第 三 行 2 表示 有 两 个 变量 值 缺 失 。 最 后 一 行 表示 各 个 变量 缺失 的 样本 合计 ，7386 表 示 player 数 据 集中 共有 7386 个 元 素 值 缺失 。 


另 一 种 比较 直观 的 方法 是 以 图 形 方式 描述 缺失 的 数据 ， 可 以 利用 VIM 包 中 的 aggr () 函数 实现 。 其 表达 形式 为 : 


aggr (x, delimiter = NULL, plot = TRUE, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/...) 


x 表 示 一 个 向 量 、 和 矩阵 或 数据 框 ，delimiter 用 于 区 分 播 补 变量 ， 如 果 给 出 对 应 的 值 ， 说 明 变 量 的 值 已 被 插 补 ， 但 在 判断 缺失 模式 时 ， 这 一 参数 默认 是 忽略 的 ;plot 是 逻辑 值 ， 指 明 是 否 绘制 图 形 ， 默 认为 
TRUE。 


用 aggr 函 数 对 player 数 据 的 缺失 值 模式 进行 可 视 化 。 执 行 以 下 代码 ， 结 果 如 图 5-1 所 示 。 


> if(!require (VIM) ) install.packages ("VIM") 
> aggr (player[,-1],Pprop=FALSE, numbers=TRUE 


a 
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图 5-1 利用 agegrt 涵 数 对 缺失 模式 绘 


左 图 的 柱子 高 度 表示 各 变量 缺失 数据 的 个 数 ， 右 图 显示 了 综合 的 缺失 模式 。 可 以 与 nd.pattern () 生成 的 结果 对 照 观察 ， 其 中 蓝 色 方 框 表 示 该 变量 是 有 值 的 ， 红 色 方 框 表示 缺失 值 ， 右 边 的 颜色 框 反映 
了 相应 组 合 的 个 数 。 由 左 图 可 知 ， 共 有 4240 个 样本 的 “ 赢 牌 局 数 ” 数 据 缺 失 ， 结 合 右 图 可 知 ， 有 1904 个 样本 只 有 “ 赢 牌 局 数 ”数据 缺 失 ， 另 外 有 3146 个 样本 的 “ 玩 牌 局 数 ” 和 “ 赢 牌 局 数 ”变量 的 数据 同 
时 缺失 。 


设置 prop=TRUE 将 生成 同样 的 图 形 ， 但 用 比例 代 蔡 计数 ， 选 项 numbers 默 认 是 FALSE， 用 于 删除 数值 型 标签 。 

2. 缺 失 值 处 理 

了 解 缺失 值 模式 后 ， 接 下 来 要 做 缺失 值 处理 的 工作 了 。 处 理 缺 失 值 主要 有 三 种 方法 。 

(1) 删除 缺失 样本 

过 滤 挤 缺失 样本 是 最 简单 的 方式 ， 其 前 提 是 缺失 数据 的 比例 较 少 ， 而 且 缺 失 数据 是 随机 出 现 的 ， 这 样 删除 缺失 数据 后 对 分 析 结 果 影 响 不 大 。 
在 R 中 使 用 na.omit () 函数 可 以 删除 有 缺失 值 的 行 ， 只 留 下 完整 样本 。 


利用 na.omit () 函数 对 player 数 据 剔 除 缺 失 样本 ， 执 行 以 下 代码 。 


> # 删除 缺失 样本 

> player full <- na.omit (player) 

> # 计算 有 缺失 值 的 样本 个 数 

> sum(!complete.cases (player full)) 
LL 


OO 


可 见 ， 经 过 na.omit () 函数 处 理 后 的 数据 已 经 没有 缺失 值 。 
(2) 替换 缺失 值 


在 数据 挖掘 中 ， 面 对 的 通常 是 大 型 的 数据 库 ， 它 的 属性 有 几 十 甚至 几 百 个 ， 因 为 一 个 属性 值 缺失 而 放弃 大 量 的 其 他 属性 值 ， 这 种 删除 是 对 信息 的 极 大 浪费 ， 最 常见 的 就 是 通过 赋值 来 解决 。 用 变量 均值 
或 中 位 数 来 代 蔡 缺失 值 ， 这 样 做 的 优点 是 不 会 减少 样本 信息 ， 处 理 起 来 简单 ， 但 缺点 是 当 缺 失 数 据 不 是 随机 出 现时 会 产生 偏差 。 


下 面 以 癌 属 人 花 数 据 为 例 进 行 演示 。 执 行 以 下 代码 。 


> irisl <- iris[,c(1,5)] 

> # 将 40、80、 120 呈 村 条 的 Sepal ， Length 变 量 值 设 置 为 缺失 值 
> irisl[c(40,80,120),1] 
> # 利用 均值 楼 换 禾 失信 


> irisl[c(40,80,120),1] <- round (mean (irisl$Sepal.Length,na.rm = T),1) 
> # 查看 以 前 许多 们 和 吕 在 人 

> iris[c(40,80,120),1];irisl[c(40,80,120),1] 

[1] 5.1 5.7 6.0 

[1] 5.8 5.8 5.8 


第 40 号 样本 的 实际 值 与 预测 值 误 差 太 大 ， 我 们 猜测 不 同 种 类 的 花 准 长度 是 否 有 明显 区 别 。 绘 制 箱 线 图 结果 如 图 5-2 所 示 。 


>plot (iris$Sepal.Length~iris$Species,col=heat.colors (3) ) 


iris$Sepal.Length 
43 5.0 $5 60 693 70 7.5 8.0 


setosa versicolor virginica 
iris$Species 


图 5-2 ”对 花 办 长 度 分 种 类 绘制 箱 线 图 


从 箱 线 图 可 以 看 出 ， 种 类 setosa 的 人 花 兴 长度 明显 小 于 其 他 两 个 种 类 ， 所 以 利用 全 部 非 缺失 值 数 据 的 平均 值 给 缺失 值 赋 值 的 方法 可 以 改进 。 接 下 来 ， 利 用 同类 均值 进行 赋值 的 方式 来 填补 缺失 值 。 


> # 将 40、80、120 号 样本 的 Sepal.Length 设 置 为 缺失 值 
> irisl[c(40,80,120),1] <- NA 
># 利用 同类 均值 进行 赋值 的 方式 来 填补 缺失 值 


>irisl[40,1] <- round (mean (irisl[irisl$Species=="'setosa','Sepal.Length'], 

十 na.rm = T),1) 

>irisl[80,1] <- round (mean (irisl[irisl$Species=='versicolor','Sepal.Length'], 
十 na.rm = T),1) 

>irisl[120,1] <- round (mean (irisl[irisl$Species=='virginica','Sepal.Length'], 


+ na rm = T);1) 
># 查看 以 前 的 值 和 现在 的 值 
>iris[c(40,80,120),1];irisl[c(40,80,120),1] 
[EL] Sl Dy 000 

[1 ,SO 5 9°56.76 


(3) 对 缺失 值 进行 赋值 


这 种 方法 将 通过 诸如 回归 、 决 策 树 、 袋 装 、 贝 叶 斯 定理 、 随 机 森林 等 算法 来 预测 缺失 值 的 最 近 蔡 代 值 ， 也 就 是 把 缺失 数据 对 应 的 变量 当 作 因 变 量 ， 其 他 变量 作为 自 变 量 ， 为 每 个 需要 赋予 缺失 值 的 字段 
分 别 建 立 预测 模型 。 


某 款 热门 游戏 做 了 一 次 问卷 调查 ， 收 集 了 玩家 的 基础 信息 (性 别 、 年 龄 、 职 业 、 收 入 ) 和 游戏 偏好 等 信息 。 问 卷 调 查 的 题目 设计 如 下 。 


游戏 问卷 调查 
1. 您 的 性 别 : 
男 证 
女 人 
2 .您 的 年 龄 : 
16 岁 及 以 下 ll 
17-23 岁 2 
23-30 岁 3 
31-40 岁 4 
41 岁 及 以 上 5 
3. 您 当前 从 事 的 职业 : 
在 校 学 生 1 
企业 /公司 员工 2 
个 体 经 商 3 
党 政 机 关 / 事 业 单 位 工作 者 4 
自由 职业 者 5 
无 业 / 待 业 6 
其 他 林 


整理 收集 的 近 30 万 玩家 数据 ， 并 存放 于 数据 库 中 。 整 理 好 的 问卷 调研 数据 内 容 如 下 。 


总 序号 性 别 年 龄 职业 学 历 收入 玩家 游戏 情况 ”游戏 进入 游戏 偏好 
1 1 5 4 3 4 2 3 3 
2 2 2 ] 3 1 2 3 
3 2 1 2 4 5 
4 1 2 5 4 4 
5 1 3 5 3 2 2 3 5 
6 1 4 5 4 4 4 3 
7 1 3 5 1 4 1 
8 1 1 1 2 4 2 
9 2 2 5 1 4 3 


由 于 性 别 、 年 龄 、 收 入 等 数据 涉及 个 人 隐私 ， 部 分 玩家 在 填写 问卷 时 不 愿意 填写 ， 造 成 数据 缺失 的 情况 。 接 下 来 ， 利 用 玩家 的 游戏 行为 数据 对 这 些 缺 失 的 数据 进行 赋值 。 


例如 ， 想 利用 回归 模型 对 性 别 变量 的 缺失 值 进行 赋值 。 先 执行 以 下 代码 查看 数据 缺失 情况 。 


# 导入 玩家 调研 数据 

questionnaire <- reaq.csv(" 问 卷 调研 数据 .csVv'"y 了) 
# 查看 问卷 调研 数据 的 行 数 和 变量 个 数 
dim(gquestionnaire) 

1] 292743 9 

> # 对 缺失 值 进 行 可 视 化 展示 

> library (VIM) 

> aggr (questionnaire[,-1],prop=FALSE, numbers=TRUE 


> 
> 
> 
> 

[ 


~ 一 


在 近 30 万 玩家 中 ， 有 2 万 玩家 的 性 别 数据 是 缺失 的 。 接 下 来 ， 以 职业 、 学 历 、 玩 家 游戏 情况 、 游 戏 进 入 和 游戏 偏好 三 个 变量 为 自 变 量 ， 以 性 别 为 因 变 量 ， 建 立 logit 回 归 模 型 ， 对 性 别 变量 的 缺失 值 进行 
预测 。 执 行 以 下 代码 。 


15000 20000 
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游戏 进 人 
游戏 偏好 


图 5-3 ”对 数据 调研 数据 进行 缺失 值 可 视 化 


> # 把 变量 转换 成 因子 型 


> str(questionnaire) 


'data.frame': 292743 obs. of 9 variables: 
$ 总 序号 : int 1 9 10 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 


$ 1 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 
$ 4 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 
$ 2 nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 
$ 学 历 : int 4 hnttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 
$ 收入 :int 411124121 2 http://ww.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 
$ 玩家 游戏 情况 : int 224 4 4 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/O0EBPS/Text/... 
$ 3 

$ 3 


8 
了 
1 
1 
1 


POP 


2 
2 
1 
5 


4 2 4 4 4 
游戏 进入 2 Tnt 11232221 3 http://ww.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 
游戏 偏好 : int 35453123 4 http://ww.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 
> for(i in 2:ncol (questionnaire)){ 
+ questionnaire[,i] <- as.factor (gquestionnairel[,i]) 
站 
> str(gquestionnaire) 
¥ 


data.frame': 292743 obs. of 9 variables: 

$ 总 序号 : int 1234567 8 9 10 nttp://ww.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 

$ 性 别 : Factor w/ 2 levels "1","2": 1221111121 nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 

$ 年 龄 : Factor w/ 5 levels "1","2","3","4",nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/..: 52123431 

$ 职业 : Factor w/ 7 levels "1","2","3","4",nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/..: 41115511 

8 学历 : Factor w/ 5 levels "1","2","3","4",nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompresseq/16401/OEBPSVText/..:33253451 

$ 收入 : Factor w/ 5 levels "1","2","3","4",nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/..: 41112412 

$ 玩家 游戏 情况 : Factor w/ 4 levels "1"，"2""3" "4": 2244244444 http://ww.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text 
$ 游戏 进入 : Factor w/ 5 levels “1,"2","3","4",http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/..: 31123222 
$ 游戏 偏好 : Factor w/ 6 levels "1","2","3","4",nhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/..: 33545312 


# 对 数据 进行 分 区 
train <- na.omit (questionnaire[,c(" 性 别 ", "职业 " , "学 历 ", "玩家 游戏 情况 ", "游戏 进入 ", "游戏 偏好 ") ] ) 
test <- questionnaire[is.na(questionnaire$ 性 别 ),c(" 职 业 " , "学 历 ", "玩家 游戏 情况 ", "游戏 进入 ", "游戏 偏好 ") ] 
# 建立 logit 回 归 模 型 
fit <- glm( 性 别 ~.,train,family = "binomial") 
# 由 于 拟 合 结果 是 给 每 个 观测 值 一 个 概率 值 ， 下 面 以 0 .5 作为 分 类 界限 : 
result <- predict (fit,test,type = "response")<0.5 
# 把 预测 结果 转换 成 原先 的 值 (1 或 2) 
z=rep (1,nrow (test));zl!result]=2 
# 在 test 集 中 增加 预测 的 性 别 变量 值 
test new <- cbind(' 性 别 '=z, test) 
# 查看 前 六 行 数据 
head (test new) 性别 职业 学 历 玩家 游戏 情况 游戏 进入 游戏 偏好 
] 2 1 3 


- 
2 


OUOOWOWOMYMYMMYMMYMMYMYMMYMMYMMYMMYMMYVYYVY 
~O 必 ~1wN 

PODDOPD 

心心 心情 

DPOOWO 


由 于 年 龄 、 收 入 是 多 因子 变量 ， 所 以 可 以 利用 决策 树 或 贝 叶 斯 对 其 缺失 值 进 行 预 测 。 这 里 演示 用 随机 森林 和 迭代 弥补 所 有 变量 缺失 值 的 方法 。 只 需要 将 问卷 调研 数据 重新 导入 R 中 ， 利 用 missForest 函 数 进 
行 随 机 森林 达 代 弥补 缺失 值 ， 即 可 插 补 所 有 变量 中 的 缺失 值 。 执 行 以 下 代码 。 


> # 导入 数据 
> questionnaire <- read.csv ("问卷 调研 数据 .csv", 工 ) 
> # 把 变量 转换 成 因子 型 
> Str (Guestionnaire) 
'data.frame': 292743 obs. of 9 variables 
$ 总 序号 :int 1234567 8 9 10 nttp://ww.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 
$ 性 别 int 1221111121http://www.hzcourse.com/resource/reaqBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 
$ 年 龄 int 5212343124 nhttp://ww.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 
$ 职业 int 411155111 2 http://ww.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 
$ 学 历 :int 332534515 4 http://ww.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 
$ 收入 :int 411124121 2 nttp://ww.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0OEBPS/Text/... 
$ 玩家 游戏 情况 : int 2244244444 http://ww.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 
$ 游戏 进入 : int 311232221 3 http://ww.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 
$ 游戏 偏好 : int 33545312 3 4 http://ww.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 
for(i in 2:ncol (questionnaire) ){ 
questionnairel[,i] <- as.factor (gquestionnairel[,i]) 


> 
十 
目 - 

> # 取 前 10000 行 样本 进行 演示 
> test <- questionnaire[1:10000,] 
> library (mice) 

> 


mgd.pattern (test) 总 序号 职业 学 历 玩家 游戏 情况 游戏 进入 游戏 偏好 年 龄 收入 性 别 _ 


8584 0 
605 1 ] 1 1 J ] 1 ] 0 1 
309 1 1 1 1 1 业 0 1 1 了 
432 1 ] 1 1 1 ] 1 0 1 ] 

17 1 于 1 1 1 1 0 1 0 2 
36 1 1 下 1 1 0 0 2 
16 1 1 ] 1 1 0 0 下 和 2 
1 1 1 ] 1 1 于 0 0 0 3 
0 0 0 0 0 0 343 485 659 1487 

> # 利用 missForest 进 行 缺 失 值 赋值 

> If(!redquire (missForest)) install.packages ("missForest") 

> Z <- missForest (test) 


missForest iteration 1 in progresshttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/...done! 
missForest iteration 2 in progresshttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/...done! 
missForest iteration 3 in progresshttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/...done! 
missForest iteration 4 in progresshttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/...done! 
> test.full <- z$ximp 旺 
> md.pattern (test.ful1) 总 站 靖 况 游戏 进入 游戏 偏好 


[1;] ] 1 ] 1 1 1 0 
[2;,] 0 0 0 ; 0 , 0 00 


， 性 别 、 年 龄 和 收入 等 变量 的 缺失 值 都 已 经 完成 插 补 。 


5.2.2 ”异常 值 判 断 处 理 


数据 样本 中 的 异常 值 (Outlier) 通常 是 指 一 个 类 别 型 变量 (Category) 中 某 个 类 别 值 出 现 的 次 数 太 少 ， 或 者 指 一 个 区 间 型 变量 (Interval) 中 某 些 取 值 大 大 或 太 小 。 忽 视 异常 值 的 存在 是 十 分 危险 的 ， 
不 加 剔除 地 把 异常 值 包括 进 数 据 的 计算 分 析 过 程 中 ， 很 可 能 会 干扰 模型 系数 的 计算 和 评估 ， 从 而 严重 降低 模型 的 稳定 性 。 


区 间 型 变量 的 异常 值 是 指 样本 中 的 个 别 值 ， 其 数值 明显 偏离 其 余 的 观测 值 。 异 常 值 也 称 为 离 群 点 ， 因 此 异常 值 分 析 也 称 为 离 群 点 分 析 。 对 异常 值 的 分 析 方 法 主要 有 : 简单 统计 量 分 析 、30 准 则 、 箱 线 图 


类 分 析 。 


这 
革 
1 


1. 简 单 统计 量 分 析 


当 你 拿 到 一 份 数据 ， 可 以 先 分 析 数 据 的 描述 统计 量 ， 进 而 查看 哪些 数据 不 符合 实际 业务 情况 。 常 用 的 统计 量 主 要 是 最 大 值 和 最 小 值 ， 判 断 这 个 变量 中 的 数据 是 否 超 出 了 合理 的 范围 。 例 如 ， 玩 家 付费 率 
的 正常 水 平 是 0~1， 如 果 超 过 1 就 属于 异常 情况 ， 需 要 从 数据 后 台 排 查 ， 找 出 付费 人 数 大 于 活跃 人 数 的 原因 。 


2.30 准 则 
30 准 则 又 称 为 拉 依 达 准 则 ， 如 果 数 据 服 从 正 态 分 布 ， 在 30 准 则 下 ， 异 常 值 被 定义 为 一 组 测定 值 与 平均 值 的 偏差 超过 三 倍 标准 差 的 值 。 在 正 态 分 布 中 ，o 代 表 标 准 差 ，b 代 表 均 值 。 


30 准 则 为 : 数值 分 布 在 〈(h-ca，H + 0) 中 的 概率 为 0.6826; 数值 分 布 在 (HW-20，h + 20) 中 的 概率 为 0.9544; 数值 分 布 在 (H-30，H + 30) 中 的 概率 为 0.9973。 距 离 平均 值 3o 之 外 的 值 出 现 的 概率 小 于 
0.003， 属 于 极 个 别 的 小 概率 事件 ， 故 称 为 异常 值 。 


一 款 游戏 发 展 到 稳定 期 ， 其 留存 率 、 付 费 率 、ARPU、ARPPU 等 指标 应 该 处 于 相对 稳定 的 水 平 ， 也 就 是 说 指标 并 无 明显 的 趋势 ， 即 不 是 持续 上 涨 ， 也 不 是 持续 下 降 ， 同 时 不 会 出 现 大 幅 波动 。 对 于 这 类 
型 的 指标 ， 可 以 通过 质量 控制 图 来 监控 。 


质量 控制 图 通过 统计 均值 和 标准 差 o 的 状况 来 衡量 指标 是 否 在 稳定 状态 。 同 时 选择 3o 来 确定 一 个 正常 波动 的 上 下 限 范 围 (根据 正 态 分 布 的 结论 ， 指 标的 特征 值 落 在 b+3a 之 间 的 概率 是 99.73%) ， 使 用 
均值 h 作 为 控制 图 的 中 心 线 (Center Line, CL) ， 用 h + 30 作 为 控制 上 限 (Upper Control Limit, UCL) ， 用 h-3a 作 为 控制 下 限 (Lower Control Limit, LCL) 。 其 形式 如 图 5-4 所 示 。 


> Set .seedq(1234) 
> data <- rnorm(20) 
> plot (data,type = "1" lwd=1 .>, xlab = NA,ylab = NA, 
十 ylim = c(-4,4),xlim = c(0,23) ,main=" 质 量 控制 图 ") 
> lines (rep (mean (data), 20) ,lwd=1 .8) ;text (21,mean (data), 0 
> lines (rep (mean (data) -3*sd (data) ,20),1ty=2,col="red", Ji 
> text (21,mean (data) -3*sd (data),1labels = " 拉 币 下限 ”col="ced”) 
> lines (rep (mean (data) +3*sd (data) ,20),1ty=2,col="red", lwd=1 .8) 
> text (21,mean (data)+3*sd (data) ,labels = "控制 上 "col="red") 
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图 5-4 质量 控制 图 
在 R 中 ，qcc 包 是 专业 绘制 质量 监控 图 的 算法 包 ， 其 核心 是 qcc 国 数 。 该 函数 的 基础 形式 如 : qcc (data，type，size，nsigmas=3，plot=TRUE，.…) 。qcc 函 数 的 主要 参数 如 表 5-1 所 示 。 


表 5-1  qcc 函 数 的 主要 参数 


参 数 


BF 


data 样本 数据 
绘制 的 控制 图 类 型 如 下 。 
， "xbar": Xbar (均值 控制 图 ) 
© 
并 "R": Xbar-R (均值 - 极 差 控制 图 ) 
"S": Xbar-S (均值 - 标准 差 控 制图 ) 
有 一 份 某 款 游戏 最 近 一 个 月 的 用 户 留存 数据 ， 包 括 每 天 的 新 增 用 户 以 及 新 增 用 户 在 第 7 日 的 留存 率 。 接 下 来 ， 利 用 qcc 函 数 第 7 日 留存 率 指标 进行 质量 监控 。 执 行 以 下 代码 。 
> # 导入 数据 
> dailydata <- read.csvV(" 每 日 付费 及 留存 数据 .CsV"vT) 
> # 查看 前 交行 
> heagd (dailydata) 日 期 新 增 用 户 七 日 留存 率 
1 6 月 1 日 95648 0.0 
2 6 月 2 日 72093 0.0881 
3 6 月 3 日 84027 0.0892 
4 6 月 4 日 ”130968 0.0749 
5 6 月 5 日 ”129277 0 
6 i 79603 .0497 
> 付费 率 的 单 值 - 均值 质 量 控制 图 


0 
attach (dailydata) 
> qcc (七 日 留存 这, type="xbar.one",labels= 日 期 ， 


> 
> 


xlab = "date"，ylab = "第 七 日 


Book?path=/openresources/teach ebook/uncormk 
F 2 


Book?path=/openresources/teach ebook/t 


月 1 由 "6 月 2 日 " "6 月 3 日 " "6 月 4 日 " Ptt 


'BPS/Text/... 


于 title=" 新 增 用 户 第 7 日 留 育 半 的 间 值 - 均值 质量 监控 图 "， 
下 xlab="date", ylab=" 第 七 日 留存 率 ") 
List of 11 
$ call : language qcc (data = 七 日 留存 率 ，type = "xbar.one"，1labels = 日 期 ，title = "新 增 用 户 第 7 日 留存 率 的 单 值 - 均 值 质量 监控 图 "， 
$ type : Chr "xbar.one" 
$ data.name : chr "七 日 留存 率 " 
$ data : num [1:30, 1] 0.0753 0.0881 0.0892 0.0749 0.0579 0.0497 0.0696 0.0628 0.055 0.0691 Di Wn on ed 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/..- attr(*, "dimames")=List of 
$ statistics: Named num [1:30] 0.0753 0.0881 0.0892 0.0749 0.0579 0.0497 0.0696 0.0628 0.055 0.0691 http: / /wm hzcourse. com/resource/readi 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/..- attr(*, "names")= chr [1:30] "6 
$ sizes : int [1:30] 1 1 1111111 1 http://www.hzcourse. com7resource/readBook?path=/openresourcesy/teach ， ebook/uncompressed/16401/0E 
$ center : Tia 0..076 
$ std.dev num 0.00454 
$ nsigmas num 3 
$ limits : num [1, 1:2] 0.0624 0.0896 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/..- attr(*, "dimames")=List of 2 
$ violations:List of 2 
= attr(* “class")= :chr "gee 


新 增 用 户 第 7 日 留 


第 七 日 留存 率 


6 月 1 日 6 月 3 日 6 月 5 日 6 月 7 日 6 月 9 日 6 月 11 日 6 月 


Number of groups=30 
Center=0.07598667 
stdDev=0.004539618 


LCL=0.06236781 
UCL=0.08960552 


图 5-5 ”新 增 用 户 第 


由 图 5-5 可 知 ， 该 游戏 六 月 的 新 增 用 户 在 第 7 日 留存 率 一 共有 3 天 存在 异常 情况 (红色 点 ) 
户 在 第 7 日 再 回 来 游戏 的 情况 差 于 其 他 日 期 ， 需 引起 运营 关注 。 


3. 箱 线 图 分 析 


AN 
、 


在 第 3 章 中 ， 我 们 知道 通过 绘制 箱 线 图 可 以 查看 数值 变量 有 没有 异常 值 。 


boxplot.stats () 函数 来 进行 单 变量 的 异常 检测 。 


boxplot.stats () 函数 可 以 实现 单 变量 异常 检测 ， 并 且 返 回 产 生 箱 线 图 的 统计 量 。 在 
boxplot.stats (X，coef=1.5，do.conf=TRUE，do.out=TRUE) ， 


续 以 用 户 留存 数据 为 例 ， 研 究 30 天 的 新 增 用 户 在 第 七 日 留存 率 的 数据 分 布 情况 ， 


是 在 箱 线 图 中 ， 我 们 只 外 


结果 中 ， 有 一 个 部 分 是 out， 


参数 coef 可 以 控制 胡须 延伸 到 箱 线 图 外 的 远近 


通过 boxplot.stats () 函数 识别 


存 率 的 单 伸 -均值 质量 监控 图 


14 日 
date 


6 月 17 日 6 月 20 日 6 月 23 日 


Number beyond limits=3 
Number violating runs=]1 1 


七 日 留存 率 xbat.one 图 


常 点 


审 操 了 


6 看 到 该 变量 有 无 异 能 在 图 中 立即 识别 异 


， 即 多 少 倍 的 IQR。 


异常 值 。 代 码 如 下 。 


6 月 26 日 


， 其 中 在 5 日 、6 日 和 9 日 的 第 7 日 留存 率 低 于 3 倍 标准 差 的 下 限 (LCL) ， 说 明 这 


它 给 出 了 异常 值 的 列表 。 其 表达 形式 为 : 


6 月 29 日 


些 天 可 能 存在 刷 量 情况 ， 导 致 用 


常 点 的 样本 号 及 异常 值 ， 此 时 可 以 借助 


> # 通过 boxplot.stats() 函数 识别 异常 值 

> boxplot.stats (七 日 @ 四 

$stats 

[1] 0.0628 0.0730 0.0789 0.0815 0.0894 
sn 
[1] 30 
Sconf 
[1] 0.07644803 0.08135197 
Sout 
[1] 0.0579 0.0497 0.0550 


过 查看 out 部 分 可 知 ， 一 共有 三 个 离 群 点 ， 其 异常 值 分 别 为 0.057 9、0.049 7、0.055 0。 接 下 来 ， 通 过 which 函 数 把 异常 值 的 下 标识 别 出 来 ， 再 通过 boxplot 水 数 对 结果 进行 可 视 化 。 执 行 以 下 代码 得 
到 的 结果 如 图 5-6 所 示 。 


Oxp 1ot (七 日 留存 窑 , Col='violet') 
ea 图 上 显示 异常 值 的 日 期 和 数值 
ext (1.1,boxplot.stats (七 日 留存 率 ) Sout， 
labels=paste (dailydata[idx, ' 日 期 '], dailydata[idx, "七 日 留存 率 '] ) 
col="darkgreen") 


# 
i 
# 
i 
] 
# 绘制 名 线 图 
b 
# 
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06 月 5 日 0.0579 
o 6 月 9 日 0.055 


o 6 月 6 日 0.0497 


0.05 


图 5-6 在 箱 线 图 上 添加 异常 值 信 息 


4. 聚 类 分 析 


前 文 所 述 的 识别 异常 值 的 方法 都 是 针对 单个 数值 变量 而 言 ， 如 果 需 要 利用 多 个 数值 变量 来 决定 样本 是 否 属于 异常 值 的 话 ， 可 以 使 用 k-means 算法 来 检测 异常 。 使 用 k-means 算法 ， 数 据 被 分 成 kK 组， 把 
它们 分 配 到 最 近 的 聚 类 中 心 ， 然 后 计算 每 个 对 象 到 聚 类 中 心 的 距离 (或 相似 性 ) ， 并 且 选 择 最 大 的 距离 作为 异常 值 。 


对 棋牌 游戏 随机 抽取 135 位 玩家 的 玩 牌 记录 ， 利 用 聚 类 分 析 对 这 135 位 玩家 进行 分 群 ， 并 找 出 每 个 对 象 到 聚 类 中 心 的 距离 最 大 的 5 位 玩家 为 异常 玩家 。 执 行 以 下 代码 。 


导入 棋牌 游戏 玩家 的 样本 数据 

<- read.csv ("玩家 玩 牌 数据 样本 .csv", 工 ) 

W 各 变量 的 量 纲 不 是 处 于 同一 水 平 ， 接 下 来 进行 归 一 化 处 理 

<- round(apply (w[,-1],2,function(x) (x-min (x))/ (max (x) -min (x))),4) 
将 uU 变 成 data .1 I 式 

<— data.frame (u) 

将 用 户 ID 赋予 对 象 U 的 行 号 

row.names (u) <- w$ 用 户 id 

# 利用 K-Means 聚 类 对 数据 u 进 行 分 群 ，k 选 择 为 3 

kmeans.result <- kmeans (u,3) 

# 找 出 距离 最 大 的 5 个 玩家 

centers <- kmeans.result$centers[kmeans.result$cluster,] 

distances <- sqgrt (rowSums ( (u-centers)^2) ) 
outliers <- order (distances,decreasing = T) [1:5] 
# 打印 出 距离 最 大 的 5 个 玩家 的 行 号 

print (outliers) 

] 5 1176 71 67 

# 打印 出 异常 玩家 的 用 户 ID 
rownames (u[outliers, ]) 

11 “7/7793052'" "7792668" "7783392™ W7784277" "1785022" 


砷 已 非 忆 间 号 间 


全 MYCDMYMYMYMYMYMYMYMYMYMYMYMYMYVYVYXY 


上 面 已 经 把 离 群 的 5 位 玩家 ID 识别 出 来 ， 接 下 来 通过 可 视 化 的 手段 展示 结果 。 


执行 以 下 代码 得 到 的 结果 如 图 5-7 所 示 。 


ee 告 果 进 行 可 视 化 展示 
绘制 135 位 玩家 的 散 点 图 

(u$ 玩 牌 局 数 ,u$ 正 常 牌 局 ， 

pch=kmeans .result$cluster, 

axes=F, Xlab=" 玩 牌 局 数 ", ylab=" 正 常 牌 局 ") 
ee = F);axis(2,1abels = F) 
# 绘制 类 中 心 点 
RE s (kmeans .result$centers[,c(' 玩 牌 局 数 ', ' 正 常 牌 局 ') ] ,pch=16, cex=1.5) 
# 绘制 离 群 点 
points (u[outliers,c(' 玩 牌 局 数 ', ' 正 常 牌 局 ') ] ,pch="*", col=4, cex=1 .5) 
# 把 离 群 点 的 用 户 ID 打 印 出 来 
text (u[outliers,c(' 玩 牌 局 数 ', ' 正 常 牌 局 ')] 

labels=rownames (u[outliers, ])) 


+ VVVVvVVvVvVvVvVvV+i++VYVvyYV 


5.3 ”数据 转换 
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7783392 


站 
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图 5-7 对 聚 类 结果 进行 可 视 化 


{3#U52 


T784277 


对 于 数据 分 析 建 模 来 说 ， 数 据 转换 是 最 常用 ， 也 是 最 有 效 的 一 种 数据 处 理 技 术 。 只 有 经 过 适当 的 数据 转换 后 ， 才 能 将 原始 数据 转换 成 适合 建 模 的 数据 格式 ， 模 型 的 效果 常常 有 明显 的 提升 。 正 因 如 此 ， 
数据 转换 成 了 很 多 数据 分 析 师 在 建 模 过 程 中 最 喜欢 使 用 的 一 种 数据 处 理 手段 之 一 。 


按照 采用 的 转换 方法 和 转换 目的 的 不 同 ， 数 据 转换 常用 的 有 以 下 几 类 。 


S53. 


在 做 数据 分 析 时 ， 经 常会 遇 到 原始 数据 现 有 的 属性 不 能 满足 分 析 需 求 的 情况 ， 这 就 需要 对 原始 数据 进行 简单 、 适 当 的 数学 公式 推导 ， 产 生 更 加 有 商业 意义 的 新 
费 


和 日 付费 用 户 数 ， 可 以 通过 付费 用 户 数 除 以 活跃 用 户 数 得 到 付费 率 指标 ;利用 首次 登录 日 期 和 首次 付费 日 期 可 以 增加 是 否 新 增 首 日 付费 的 字段 ， 等 等 。 


“ 数据 标准 化 转换 。 


产生 衍生 变量 


pa = 局 
分 星 。 


例如 ， 原 始 数据 中 有 日 活跃 用 户 数 


现在 有 一 份 数据 转换 的 数据 包括 playerid (用 户 id) 、registration (注册 日 期 ) 、first-paydate (第 一 次 付费 日 期 ) 、days (登录 天 数 ) 和 lifetime (生命 周期 ) 等 属性 。 接 下 来 ， 需 要 利用 现 有 属性 


生成 是 否 付费 以 及 


月 不 


是 否 新 增 首 日 付费 两 个 衍生 变量 。 


立 


首先 ， 将 数据 导入 R 中 ， 由 于 firstpaydate 属 性 有 大 量 的 缺失 值 ， 所 以 需要 设置 na.strings=NA。 执 行 以 下 代码 。 


> 


# 导入 数据 


> rawdata <- read.csv ("数据 转换 数据 .csv",na.strings = NA) 
> # 查看 数据 的 前 六 行 


> 


head (rawdata) 


UE 


playerid registration firstpaydate days 1i 
1001984428 20160408 NA 4 
1002360742 20160407 20160407 12 
1003943907 20160423 NA 1 
1005005"71 20160406 20160407 10 
1005541598 20160414 NA 1 
1007334849 20160426 NA 2 


fet ime 
107 
16 


01 


; 


由 于 注册 日 期 和 首次 付费 日 期 非 日 期 格式 ， 接 下 来 对 这 两 个 属性 的 格式 进行 转换 。 执 行 以 下 代码 。 


> # 将 注册 日 期 变量 转换 成 日 期 格式 


> rawdatas$registration <- as.Date (paste (Substr (rawdata$registration,1,4), 


> 


> # 将 首次 付费 日 期 转换 成 日 期 格式 


sep="/") 


"$Y/Sm/%d") 


substr (rawdatas$registration, 5,6), 
substr (rawdatas$registration,7,8), 


rawdatas$firstpaydate <- as.Date (Paste (substr (rawdatas$firstpaydate,1,4), 


十 sep="/") > 
二 "$Y/%Sm/%$d") 
> # 查看 数据 的 前 六 行 
> head (rawdata) 

playerid registration firstpaydate days 1i 
1 1001984428 2016-04-08 <NA> 4 
2 1002360742 2016-04-07 2016-04-07 12 
3 1003943907 2016-04-23 <NA> 1 
4 100500571 2016-04-06 2016-04-07 10 
5 1005541598 2016-04-14 <NA> 1 
6 1007334849 2016-04-26 <NA> 2 


最 后 ， 增 加 ispay 变 量 : 0 表示 非 付 费用 户 、1 表 示 付 费用 户 ; isnewpay 变 量 : 0 表示 非 新 增 付 费用 户 ，1 表 示 新 增 首 日 付费 用 户 。 执 行 以 下 代码 。 


> # 增加 ispay 变 量 : 0 表示 非 付 费用 户 ，1 表 示 付 费用 户 


> rawdata$ispay <- i 


felse (!is.na (rawdatad$ 


substr (rawdatas$firstpaydate, 5, 6), 
substr (rawdatas$firstpaydate, 7,8), 


fet ime 
107 
16 


了 01 


firstpaydate),1,0) 


> # 增加 isnewpay 变 量 : 0 表示 非 新 增 首 日 付费 用 户 ，1 表 示 新 增 首 日 付费 用 户 


> rawdata$isnewpay <- ifelse (fawqataS$registration==rawqataSfirstpayqatey 

十 1,0) 

> rawdatal[lis.na (rawdata$isnewpay),'isnewpay'] <- 0 

> # 查看 数据 前 10 行 

> head (rawdata) 

playerid registration firstpaydate days lifetime ispay isnewpay 
0 


1 1001984428 2016-04-08 <NA> 4 10] 0 

2 1002360742 2016-04-07 2016-04-07 12 16 1 1 

3 1003943907 2016-04-23 <NA> 1 了 0 0 

4 100500571 2016-04-06 2016-04-07 10 101] ] 0 

5 1005541598 2016-04-14 <NA> 1 由 0 0 

6 1007334849 2016-04-26 <NA> 2 2 0 0 
5.3.2 ”数据 分 箱 


所 谓 “ 分 箱 ”， 实 际 上 就 是 按照 属性 值 划分 的 子 区 间 ， 如 果 一 个 属性 值 处 于 某 个 子 区 间 范 围 内 ， 就 称 把 该 属性 值 放 进 这 个 子 区 间 代 表 的 “箱子 ”内 。 在 R 语 言 中 可 以 用 cut () 函数 实现 。 


例如 ， 想 对 rawdata 数 据 中 的 days 和 lifetime 属 性 按照 实际 业务 场景 进行 分 箱 操 作 ， 执 行 以 下 代码 。 


> # 利用 cut 有 函数 对 数据 进行 分 箱 
# 对 days (活跃 天 数 ) 进行 分 箱 操 作 
> rawdata$days interval <- cut (rawdata$days, 
breaks= cS (9， 30,60,90,Inf), 
labels=c( (1 一 个 月 内 ' 31- 60 天 ', '61~90 天 ', ' 三 个 月 以 上 ') 
# 对 1ifetime (生命 周期 ) 进行 分 箱 操 作 
rawdata$lifetime interval cut (rawdata$lifetime, 
breaks= els 7,21,30,90, Inf 
labels=c(' 小 于 一 周 '， Wl 了 于 一 个 月 '， 
"于 全 从 为 " "三 个 月 六 -EE")) 


Vv 


V 十 本 


BY 


5.3.3 ”数据 标准 化 转换 


数据 标准 化 转换 也 是 数据 分 析 中 常见 的 数据 转换 手段 之 一 ， 数 据 标准 化 转换 的 主要 目的 是 消除 变量 之 间 的 量 刚 影响 ， 将 数据 按照 比例 缩放 ， 使 之 落 入 一 个 相同 范围 之 内 ， 让 不 同 的 变量 经 过 标准 化 处 理 
后 可 以 有 平等 分 析 和 比较 的 基础 。 例 如 ， 层 次 聚 类 、 主 成 分 分 析 、K 均 值 聚 类 ， 一般 基 于 距离 的 算法 或 模型 都 需要 对 原始 数据 进行 标准 化 处 理 。 常 用 的 数据 标准 化 转换 是 Min-Max 标 准 化 和 零 - 均 值 标准 化 。 


1.Min-Max 标 准 化 


Min-Max 标 准 化 应 该 是 最 简单 的 数据 标准 化 转换 ， 也 叫 离 差 标 准 化 ， 是 对 原始 数据 的 线性 变换 ， 将 数值 映射 到 [0，1]。 转 换 公式 如 下 。 


XA— MH 
JHUX— HCH 


X—H 


其 中 ，max 为 样本 数据 的 最 大 值 ，min 为 样本 数据 的 最 小 值 。 
2. 零 -均值 标准 化 


数据 符合 标准 正 态 分 布 ， 即 均值 为 0%， 标 准 差 为 1， 转 换 公式 如 下 。 


其 中 ，h 为 所 有 样本 数据 的 均值 ，a 为 所 有 样本 数据 的 标准 差 。 
在 R 中 ， 用 scale () 函数 得 到 Z-Score 标 准 化 。 其 表达 形式 为 : scale (X，center=TRUE，scale=TRUE) 。 
3.preProcess () 国 数 


caret 包 中 的 preProcess () 函数 能 非常 灵活 地 实现 数据 的 标准 化 。 其 函数 基本 形式 如 下 : 


preProcess (x, method = c("center", "scale"), thresh = 0.95 pcaComp = NULL, 
na.remove = TRUE,k = 5,knnSummary = mean,outcome = NULL, 
fudge = .2,numUnique = 3,verbose = FALSE,http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/O0EBPS/Text/...) 


各 参数 介绍 如 下 。 


\ 


为 一 个 给 阵 或 数据 框 ， 对 于 非 数 值 型 变量 将 被 名 略 。 


method: 指定 数据 标准 化 的 方法 ， 默 认为 "cehtef" 和 "scale"。 其 中 centet 表 示 预 测 变 量 值 减 去 均值 ; scale 表 示 预 测 变 量 值 除 以 标准 差 ， 故 默认 标准 化 方法 就 是 (xmu) /std。 如 果 使 用 tanpge 方 法 ， 则 数据 
标准 为 [0，1] 的 范围 ， 即 (x-min) / (max-min) 


“thresh: 如 果 使 用 主 成 分 分 析 (PCA) 方法 ， 该 参数 指定 累计 方差 至 少 达 到 0.95。 

* pcaComp: 如 果 使 用 主 成 分 分 析 (PCA) 方法 ， 该 参数 可 指定 保留 的 主 成 分 个 数 ， 该 参数 的 优先 级 高 于 thtesh。 
.natfemove: 默认 剔除 缺失 值 数据 。 

:下 : 如 果 使 用 k- 近 邻 方 法 填补 缺失 值 ， 就 可 以 指定 具体 的 k 值 ， 默 认为 5。 

“ knnSummary: 使 用 K 个 近邻 的 均值 替代 缺失 值 。 

outcome: 指定 数据 集 的 输出 变量 ， 使 用 BOX-COX 变 换 数 据 时 ， 该 参数 需要 指定 输出 变量 。 

“ fudge: 指定 BOX-COX 变 换 的 ljambda 值 波动 范围 。 

“ numUnique: 指定 多 少 个 唯一 值 需要 因 变 量 y 估 计 BOX-COX 转 换 。 

. vetbose: 指定 需要 输出 详细 的 结果 。 


以 营 尾 花 数 据 集 为 例 ， 演 示 preProcess 函 数 的 使 用 。 


> # 采 用 (x-mu) /stq 的 标准 化 方法 ， 与 scale () 函数 效果 一 样 
> standard <- preProcess (iris) 
> head (predict (standard, iris)) 


Sepal.Length Sepal.Width Petal.Length Petal. Width Species 
1 =0.8976739 1.013560199 = 335752 -1.311052 setosa 
2 -1 .1392005 =0.1315388] -1 .3395752 -1.311052 setosa 
3 -1.3807271 0.3273175] -1 .392399 -1.311052 setosa 
4 -1.5014904 0. 09788935 -1 ,279104 -1.311052 setosa 
5 -1 .0184372 .24503015 =1.333752 -1.311052 setosa 
6 -0.5353840 1.93331463 = .165809 -1.048667 setosa 
> head (scale (iris[,1:4])) 

Sepal .Length Sepal .Width Petal.Length Petal .Width 

[1;] -0.8976739 “01560199 = :335752 = 二 311052 
[局 =] .1392003 =0,1313388] = 333732 =] 311032 
[37] -1 .3807271 0.3273175] =] .392399 = 3110352 
[4,] -1 .5014904 0. 09788935 -1] .279104 =] :311052 
[Sr] =] .0184372 .24503015 -1.335752 =].311032 
[6,1] -0.5353840 1.93331463 -1].165809 -1 .048667 
> # 采用 (x-min (x))/ (max (x) -min (x) ) 的 标准 化 方法 
> standard <- preProcess (iris, method = 'range') 
> head (predict (standard, iris)) 

Sepal.Length Sepal.Width Petal.Length Petal.Width Species 
J 0 .22222222 0.6250000 0.06779661 0.04166667 setosa 
2 0.16666667 0.4166667 0.06779661 0.04166667 setosa 
3 0.11111111 0.5000000 0.05084746 0.04166667 setosa 
4 0%08333333 0.4583333 0.08474576 0.04166667 setosa 
5 0.19444444 0.6666667 0.06779661 0.04166667 setosa 
6 0.30553536 0.7916667 0.11864407 0.12500000 setosa 
> fun <- function(x) (x-min (x))/ (max (x) -min (x)) 
> head (sapply (iris[,1:4],fun)) 

Sepal.Length Sepal.Width Petal.Length Petal .Width 

[ly] 0.22222222 0.6250000 0.06779661 0.04166667 
[27] 0.16666667 0.4166667 0.06779661 0.04166667 
[3;] 0.11111111 0.5000000 0.05084746 0.04166667 
[4,] 0.08333333 0.4583333 0.08474576 0.04166667 
[5y] 0.19444444 0.6666667 0.06779661 0.04166667 
[67] 0:3053535356 0.7916667 0.11864407 0.12500000 


5.4 数据 哑 区 量 处 理 


哑 变 量 (dummy variable) 也 叫 虚拟 变量 ， 引 入 哑 变 量 的 目的 是 将 不 能 够 定量 处 理 的 变量 量化 ， 如 性 别 、 年 龄 、 职 业 等 。 这 种 “量化 ”通常 是 通过 引入 “ 哑 变 量 ”来 完成 的 。 根 据 这 些 因素 的 属性 类 
型 ， 构 建 只 取 “0” 或 “1” 的 人 工 变量 ， 通 常 称 为 哑 变 量 。 例 如 ， 变 量 “ 性 别 ” 的 取 值 为 : 男性 、 女 性 。 可 以 增加 2 个 哑 变 量 来 代 蔡 “性 别 ” 这 个 变量 ， 分 别 为 性 别 . 男 性 (1= 男 性 /0= 女 性 ) 、 性 别 .女性 
(1= 女 性 /0= 男 性 ) 。 


在 研究 变量 间 关 系 或 者 建 模 时 ， 可 能 都 需要 引入 哑 变 量 ， 例 如 在 线性 回归 分 析 中 引入 哑 变 量 的 目的 是 可 以 考察 定性 因素 对 因 变 量 的 影响 。 


假如 有 一 份 customers 数 据 集 ， 包 括 id、gender、mood 和 outcome 变 量 ， 其 中 gender 和 mood 都 是 因子 型 变量 ， 需 要 将 它们 进行 哑 变 量 处 理 。 执 行 以 下 代码 。 


> # 构建 customers 数 据 集 

> customers<-data.frame (id=c (10,20,30,40,50), 

十 gender=c ("male", "female", "female", "male", "female")， 
二 mood=c ("happy", sad" 。 "happy" sad" "happy" ) > 

十 outcome=c (1,1,0,0,0)) 


> customers 
id gengder mood outcome 
10 male happy 
2 20 female sad 1 
3 30 female happy 0 
4 40 male sad 0 
5 50 female ye 0 
> # 对 因子 型 变量 进行 哑 变 量 处 理 


> # 创建 新 数据 框 customers .new 
> _ customers .new <- customers[,c('id','outcome')] 
> # 对 gengqer 变 量 进行 吓 变量 处 理 
> customers.new$gender.male <- ifelse (customers$gender=="'male',1,0) 
> customers.new$gender.female <- ifelse (customers$gender=="'female',1,0) 
> # 对 moodq 变 量 进行 哑 变 量 处 理 
> _ customers .newSmoodq.happy <- ifelse (customersSmoodq=='happy'y1y0) 
> customers.new$mood.sad <- ifelse (customers$mood=="'sad',1,0) 
> customers.new 
id outcome gender.male gender.female mood.happy mood.sad 
1 10 1 1 0 1 0 
2 20 1 0 ] 0 1 
3..30 0 0 由 0 
4 40 0 1 0 0 1 
S50 0 0 1 1 0 


如 果 进 行 哑 变 量 处 理 的 因子 变量 很 多 ， 且 因子 水 平 不 止 两 个 ， 利 用 以 上 方法 处 理 就 会 显得 略微 麻烦 。 接 下 来 介绍 一 个 专门 处 理 呈 变量 的 浮 数 ， 它 就 是 caret 包 中 的 dummyVars () 函数 。 其 表达 形式 


dummyVars (formula, data, sep = ".", levelsOnly = FALSE, fullRank = FALSE, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Te 


其 中 ，formula 表 示 模 型 公式 ，data 是 需要 处 理 的 数据 集 ，sep 表 示 列 名 和 因子 水 平 间 的 连接 符号 ，levelsOnly 默 认 是 FALSE， 为 TRUE 时 ， 表 示 仅 用 因子 水 平 表示 新 列 名 ，fullRank 默 认 是 FALSE， 为 
TRUE 时 ， 表 示 进 行 虚拟 变量 处 理 后 ， 不 需要 出 现代 表 相 同意 思 的 两 列 。 


现在 ， 利 用 dummyVars () 函数 对 customers 数 据 集 进行 哑 变 量 处 理 。 执 行 以 下 代码 。 


> # 加 载 caret 包 到 内 存 

> library (caret) 

> # 查看 customers 的 数据 结构 
> str(customers) 


'data.frame': 5 obs. of 4 variables: 
8 1d : num 10 20 30 40 50 
$ gender : Factor w/ 2 levels "female","male": 21121 


$ mood : Factor w/ 2 levels "happy","sad": 1 2121 


$ outcome: num 1 1000 

> # 利用 gummyVars 函 数 对 customers 数 据 进行 哑 变 量 处 理 
> dmy<-dummyVars (~.,data=customers) 
> # 对 自身 变量 进行 预测 ， 并 转换 成 gata.frame 格 式 
> trsf<-data.frame (predict (dmy, newdata=customers)) 
> # 查看 转换 结果 
> trsf 

id genaqer .female gender.male mood.happy mood.sad outcome 
1 .10 0 1 由 1 
2 20 1 0 0 业 1 
3.30 1 0 由 0 0 
4 40 0 1 0 1 0 
3 30 1 0 1 0 0 


简单 两 行 命 令 就 完成 了 对 customers 数 据 哑 变 量 转换 的 任务 。 细 心 的 读者 可 能 已 经 发 现 了 ， 在 我 们 的 customers 数 据 集中 ，id 和 outcome 是 数值 型 变量 ，gender 和 mood 是 因子 型 变量 ， 转 换 结果 是 id 
和 outcome 没 有 变化 ， 只 对 gender 和 mood 进 行 了 哑 变 量 处 理 。 说 明 dummyVars 函 数 会 自动 判断 变量 类 型 ， 根 据 变量 类 型 决定 是 否 进行 哑 变 量 处 理 。 假 如 将 outcome 转 损 成 因子 型 变量 ， 再 次 执行 以 下 代 
码 ， 查 看 转换 结果 。 


> # 将 outcome 变 量 转换 成 因子 型 变量 
> _ customersSoutcome <- as.factor (CustomersSoutcome) 
> # 利用 gummyVars 函 数 对 customers 数 据 进行 哑 变 量 处 理 
> dmy<-dummyVars (~.,data=customers) 
> # 对 自身 交 量 进行 预测 ， 并 转换 成 data .frame 格 式 
> trsf<-data.frame (predict (dmy, newdata=customers)) 
> # 查看 转换 结果 
> trsf 

Id genaqer .female gender.male mood.happy mood.sad outcome.0 outcome.1 
1 10 0 1 站 0 0 1 
2. .20 1 0 0 1 0 1 
3.30 由 0 1 0 ] 0 
4 40 0 1 0 下 0 
3 30 于 0 出 0 0 


可 见 ，outcome 已 经 拆 分 成 两 列 : outcome.1 和 outcome.0。 


当然 ， 也 可 以 指定 customer 数 据 中 的 某 一 列 进行 哑 变 量 处 理 。 例 如 ， 想 对 gender 变 量 进 行 哑 变 量 处理 ， 其 他 因子 变量 都 不 转换 。 执 行 以 下 代码 。 


> # 只 对 genqer 变 量 进行 王 变量 转换 

> dmy.gender <- dummyVars (~gender,data=customers) 
> 

> 


trsf.gender <- data.frame (predict (dmy.gender,newdata=customers)) 
trsf.gender 
gender.female gender.male 

0 . 


0 


对 于 两 分 类 的 因子 变量 ， 在 进行 虚拟 变量 处 理 后 可 能 不 需要 出 现代 表 相 同意 思 的 两 列 (如 gender.female 和 gender.male) 。 这 时 候 可 以 将 dummyVars 函 数 中 的 fullRank 参 数 设置 为 TRUE; 且 新 增 列 
名 只 想 用 因子 水 平 表示 ， 此 时 将 参数 levelsOnly 设 置 为 TRUE 即 可 。 执 行 以 下 代码 。 


> # 将 levelsOonly 和 fullRank 设 置 为 TRUE 

> customers<-data.frame (id=c (10,20,30,40,50), 
十 gender=c ("male", "female", female" "male", "female")， 
二 mood=c ("happy" 7 TY sad" "happy" 7 sad" 7 "happy" ) ” 

十 outcome=c (1,1,0,0,0)) 


I I 


> dmy<-dummyVars (~.,data=customers, levelsOnly=TRUE, fullRank=TRUE 
> trsf<-data.frame (predict (dmy, newdata=customers)) 

>: tSE 

id male sad outcome 

10 1 0 ] 


esr 


OAODP 
心 CD 

La 

OO 

OO 
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最 后 ,我们 有 一 份 天 于 用 户 在 不 同时 间 段 登录 次 数 的 数据 ， 需 要 将 数据 先进 行 哑 变 量 处 理 ， 然 后 可 以 分 析 不 同时 间 段 登录 次 数 的 关系 。 执 行 以 下 代码 。 


> # 导入 用 户 活跃 时 间 段 数据 

> load ("loginhour.RData") 

> dim(loginhour) 

[1] 50000 7 

> # 查看 列 名 

> colnames (loginhour) 

[1] "player id" "work day cnt" "week end cnt™" “morning cnt" 
[5] "afternoon cnt" "evening cnt" "night cnt" 

> # 利用 dummyVars 吕 数 lo09inhour 数 据 进 行 哑 变 量 处 理 


> library (caret) 载 入 需要 的 程 辑 包 : lattice 载 入 需要 的 程 辑 包 : ggplot2 
Warning message: 程 辑 包 ggplot2 是 用 R 版 本 3.2.5 建 造 的 


> dmy<-dummyVars (~.,data=loginhour) 
> # 对 自身 变量 进行 预测 ， 并 转换 成 gata.frame 格 式 
> trsf<-data.frame (predict (dmy, newdata=loginhour)) 
> # 查看 转换 后 的 维度 
> dim(trsf) 
[1] 50000 29 
> # 查看 转换 后 的 列 名 
> colnames (trsf) 
二 "player id" "work day cntoO" "work day cntl1.5" 
4] "work day cnt21.60" "work day cntover 60" “week end cntO" 
7] "week end cntl1.5" "week end cnt21.60" "week end cnt5.20" 
0] "week end cntover 60" "morning cntO" "morning cnt1.5" 
[13] "morning cnt21.60" "morning cnt5.20" "morning cntover 60" 
[16] "afternoon cntO" "afternoon cntl1.5" "afternoon cnt21.60" 
[19] "afternoon cnt5.20" "afternoon cntover 60" "evening cnton 
22] "evening cnt1.5" "evening cnt21.60" "evening cnt5.20" 
[25] "evening cntover 60" "night cntO" "nignt cnt1.5" 
[28] "night_cnt21.60" "night cntover 60" 
5.5 ”小结 


本 章 学 习 了 利用 SMOT 函 数 对 类 失衡 数据 处 理 的 方法 ， 了 解 了 sample 函 数 与 creat-DatapPartition 国 数 在 数据 抽样 时 的 区 别 。 在 数据 质量 分 析 中 ， 掌 握 了 缺失 值 和 有 异常 值 的 判别 及 处 理 技 巧 。 此 外 ， 还 


绍 了 常用 的 数据 转换 和 哑 变 量 处 理 函 数 。 


第 6 章 ”游戏 数据 分 析 的 冲 用 万 法 


介 


游戏 数据 中 有 很 多 专业 的 运营 指标 ， 如 果 以 运营 概要 的 数据 表 呈 现 给 用 户 ， 他 们 很 难 在 大 量 的 数据 中 发 现 需要 查看 的 内 容 。 这 就 需要 对 关键 指标 ， 如 收入 、 付 费 留 存 率 、 新 增 留 存 率 等 指标 进行 可 视 化 


展示 ， 让 用 户 可 以 很 清晰 地 读 懂 这 些 指 标 在 近期 的 表现 情况 和 将 来 的 趋势 ; 我 们 也 可 以 用 数据 分 析 技 术 去 发 现 不 同 指标 间 的 关系 ， 发 现 影响 游戏 质量 的 主要 原因 等 。 


6.1 洲 戏 数据 可 钢化 
有 时 候 我 们 需要 研究 某 一 个 指标 的 走势 情况 ， 此 时 可 以 借助 曲线 图 直观 展示 。 散 点 图 可 以 很 直观 地 发 现 两 个 指标 间 的 关系 。 


6.1.1 单 指标 数据 可 视 化 


有 时 候 ， 运 营 人 员 需 要 单独 查看 一 些 核心 指标 的 近期 数据 情况 ， 此 时 就 需要 对 这 些 指标 进行 数据 可 视 化 展示 ， 帮 助 运营 人 员 一 眼看 出 数据 的 走势 或 者 对 比 。 


例如 ， 想 查看 近期 的 新 增 用 户 数 据 ， 可 以 利用 曲线 图 来 展示 ， 这 样 就 能 看 出 每 日 新 增 用 户 近 期 的 走势 ， 从 而 判断 新 增 用 户 是 增加 还 是 减少 ， 有 助 于 运营 人 员 利 用 图 形 传递 的 信息 实施 相应 的 运营 策略 。 


图 6-1 是 近 一 个 月 每 日 新 增 用 户 的 趋势 图 。 
从 趋势 图 可 以 看 出 ， 步 入 7 月 份 后 ， 受 学 校 放假 影响 ， 新 增 用 户 呈 现 逐 日 增长 趋势 。 


有 时 候 ， 我 们 可 能 需要 统计 不 同 特征 的 用 户 人 数 ， 此 时 可 以 借助 柱状 图 展示 。 例 如 ， 图 6-2 统 计 了 某 款 游戏 从 上 线 到 2016 年 6 月 份 的 总 注册 用 户 数 、 半 年 内 活跃 用 户 数 以 及 僵 己 用户 数 的 柱状 图 。 
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图 6-1 对 近 一 个 月 的 日 新 增 用 户 绘制 趋势 图 


总 注册 用 户 半年 活跃 ” 国 僵尸 用 户 
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2016-06 
图 6-2 ”统计 累计 用 户 、 半 年 活跃 用 户 、 僵 尸 用 户 的 柱状 图 


从 柱状 图 可 以 看 出 ， 大 部 分 的 注册 用 户 都 变 成 了 僵尸 用 户 ， 大 概 占 总 注册 用 户 的 73%。 


6.1.2” 双 指标 数据 可 视 化 


有 了 时候， 需要 查看 两 个 指标 间 的 关系 ， 可 以 绘制 散 点 图 查看 其 数据 分 布 情况 。 有 一 份 6 月 份 的 运营 数据 ， 想 查看 活路 用户 与 新 增 用 户 的 关系 ， 执 行 以 下 代码 得 到 图 6-3 所 示 的 散 点 图 。 


read.csv ("可 视 化 数据 .csv", 了) 
> plot (w$ 活 跃 用 户 ~w$ 新 增 用 户 , col="Vvioletred2",pch=16, 
+ main=" 活 跃 用 户 Vs 新 增 用 户 散 点 图 ") 


从 图 6-3 中 可 知 ， 两 者 之 间 有 很 强 的 正 相关 性 ， 可 以 建立 线性 回归 模型 利用 新 增 用 户 来 对 活跃 用 户 进行 预测 。 执 行 以 下 代码 在 图 6-3 中 添加 线性 拟 合 直线 ， 结 果 如 图 6-4 所 示 。 


> 砷 添加 线性 拟 合 直 线 
> abline (lm(w$ 活 跃 用 户 ~w$ 新 增 用 户 ) ,col="blue", lwd=2, lty=2) 


6.1.3 ”三 指标 数据 可 视 化 


有 时 候 ， 可 能 需要 同时 查看 三 个 指标 的 数据 ， 此 时 可 以 在 散 点 图 的 基础 上 ， 用 第 三 个 指标 来 控制 散 点 的 颜色 或 者 大 小 ， 通 过 这 样 的 方式 来 将 三 个 维度 的 数据 在 二 维 平面 展示 出 来 。 例 如 想 在 图 6-3 的 基础 
上 ， 增 加 付费 率 指 标的 信息 ， 可 以 用 付费 率 指标 来 控制 散 点 的 大 小 。 执 行 以 下 代码 得 到 的 结果 如 图 6-5 所 示 。 


> # 绘制 气泡 图 

> plot (w$ 活 跃 用 户 ~w$ 新 增 用 户 , colL="violetred2" pch=16， 
十 

十 


Cex=w$ 付 费 率 ， 
main=" 活 跃 用户 VS 新 增 用 户 气 泡 图 ") 


w$ 活 跃 用 户 
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活路 用户 vs 新 增 用 户 散 点 图 
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图 6-3 ”绘制 活跃 用 户 与 新 增 用 户 的 散 点 图 
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活跃 用 户 vs 新 增 用 户 散 点 图 
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图 6-4 添加 线性 拟 合 直 线 的 散 点 图 
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活跃 用 户 vs 新 增 用 户 气 泡 图 
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图 6-5 利用 付费 率 指标 设置 散 点 大 小 


从 气泡 图 可 以 得 知 ， 当 天 在 新 增 用 户 较 多 的 情况 下 ， 其 付费 率 相 对 较 高 ， 说 明 新 增 用 户 首 日 的 付费 意愿 较 高 。 


6.2 ”游戏 数据 趋势 分 析 
可 以 通过 简单 的 同比 、 环 比 发 现 游戏 数据 的 趋势 变化 ， 也 可 以 利用 时 间 序 列 模型 对 时 序数 据 建立 模型 ， 对 未 来 进行 预测 。 
6.2.1 同比 、 环 比 


公司 管理 层 有 时 候 希 望 看 到 数据 的 对 比 ， 而 不 是 简单 给 他 们 呈现 数据 明细 。 此 时 ， 可 以 引入 同比 、 环 比 的 方法 。 
同比 增长 率 是 为 了 消除 数据 周期 性 波动 的 影响 ， 将 本 周期 内 的 数据 与 上 一 期 中 相同 时 间 点 的 数据 进行 比较 。 
环比 增长 率 反 映 的 是 数据 连续 变化 的 趋势 ， 将 本 期 的 数据 与 上 一 期 的 数据 进行 对 比 。 

对 某 款 游戏 的 日 运营 数据 增加 了 同比 和 环比 对 比 ， 可 以 很 快 看 出 与 昨天 和 上 周 同期 的 数据 变化 ， 如 图 6-6 所 示 。 


从 图 6-6 可 知 ， 这 款 游戏 的 用 户 类 指标 活跃、 新 增 、 次 留 、 七 留 ) 对比 昨 天 和 上 周 同 期 都 是 增长 的 ， 但 是 付费 类 指标 (付费 用 户 、 付 费 金 额 、 付 费 率 、ARPU、ARPPU) 对 比 昨天 和 上 周 同期 都 是 下 降 
的 ， 这 种 现象 是 不 太 合理 的 ， 正 常用 户 增 长 会 带 来 收入 的 增加 ， 需 要 查找 背后 的 原因 。 后 来 经 过 对 后 台 代码 进行 排查 后 发 现 ， 在 当天 的 某 些 时 间 段 出 现 订 单 支付 问题 ， 导 致 当天 的 付费 类 指标 出 现 异常 。 


景 计 用 户 活跃 用 户 新 增 用 户 次 日 留存 七 日 留存 


26159.03wW 30/.29w 44.6lw 41.19 14.03 


日 环比 : 1 0.17% 局 同 比 : 1 日 环比 : 1 1.979% 周 同 比 : 1 日 环比 : 1 1.75% 周 同比 : 1 2.3% 日 环比 : 1 6.35% ”局 同比 : 1 日 环比 : 1 1.37% 局 同比 : 1 
1.22% 5.29% 0.51% 5.01% 


付费 用 户 付费 金额 付费 率 ARPU ARPPU 


2.32W 34.1l/w 0./6% 0.11 14./ 


日 环比 : 上 -9.99% 周 同 比 : | 日 环比 : 上 -39.61% 局 同比 : | 日 环比 : 上 -11.63% ”局 同比 : | 日 环比 : 上 -40.77% 局 同比 : } 日 环比 : 上 -39.61% 局 同比 : | 
-27.05% -43.38% -46.23% -26.63% 


图 6-6 ”运营 指标 同比 、 环 比 情况 


6.2.2 ”趋势 线 拟 合 


使 用 同比 、 环 比 增长 率 的 方法 解决 了 管理 层 观 察 关键 指标 总 体 的 变化 趋势 ; 但 是 运营 人 员 更 希望 看 到 数据 每 天 的 变化 趋势 ， 此 时 可 以 使 用 拟 合 技术 来 表现 数据 大 体 变化 趋势 ， 常 见 的 趋势 线 包 括 线性 趋 
势 线 、 指 数 趋势 线 、 对 数 趋势 线 。 其 中 ， 线 性 趋势 线 的 增长 速度 基本 是 均匀 的 ， 也 是 比较 常见 的 线性 拟 合 方式 ; 指数 趋势 线 用 于 拟 合 以 指数 形式 增长 的 数据 ， 即 增长 速度 先 慢 后 快 ， 对 数 趋势 线 的 增长 数据 
先 快 后 慢 ; 大 趋势 线 的 变化 趋势 与 指数 比较 相似 。 


如 果 使 用 Excel， 可 以 直接 添加 各 种 趋势 线 ; 如果 使 用 R 语 言 ， 可 以 通过 Im 消 数 添加 线性 拟 合 直 线 ， 通 过 gm 函数 添加 指数 、 对 数 拟 合 曲线 等 。 


针对 6 月 份 运营 数据 中 的 ARPPU (每 付费 用 户 平均 收入 ) 指标 绘制 柱状 图 ， 并 添加 线性 趋势 线 ， 结 果 如 图 6-7 所 示 。 


六 月 ARPPU 每 日 走势 
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图 6-7 ”添加 线性 趋势 线 的 ARPPU 柱 状 图 


如 果 对 每 日 新 增 用 户 也 添加 线性 趋势 图 ， 结 果 如 图 6-8 所 示 。 


很 明显 ， 对 于 新 增 用 户 具有 周末 效应 ， 此 时 利用 线性 趋势 线 的 拟 合 效果 不 佳 ， 我 们 应 该 利用 下 面 提 到 的 时 间 序 列 模型 来 对 这 数据 进行 拟 合 。 


入 月 新 增 用 刀 柱 状 图 
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图 6-8 ”添加 线性 趋势 线 的 新 增 用 户 柱 状 图 


6.2.3 ”时 间 序 列 数据 预测 


前 文 介绍 的 趋势 线 对 于 比较 有 规律 的 数据 而 言 具有 较 好 的 拟 合 度 ， 但 很 多 游戏 指标 的 变化 趋势 长 期 来 看 并 不 可 能 一 直 保 持 有 规律 ， 会 受到 很 多 内 外 部 因素 的 影响 ， 所 以 使 用 时 间 序 列 来 拟 合 数据 的 趋势 
会 更 加 准确 。 


时 间 序 列 分 析 是 一 种 动态 数据 处 理 的 统计 方法 ， 典 型 的 假设 是 相 邻 观测 值 具有 某 种 依赖 性 ， 从 而 基于 随机 过 程 理 论 和 数理 统计 学 方法 ， 研 究 随机 数据 序列 遵从 的 统计 规律 。 序 列 对 象 是 一 种 专 为 分 析 时 
间 序 列 而 设计 的 对 象 类 型 ， 其 中 不 仅 包括 指标 的 数值 ， 还 包括 时 间 轴 信息 。 


在 R 语 言 中 ，ts (< 向 量 对 象 >) 可 以 把 一 个 向 量 转化 为 一 个 时 间 序 列 对 象 。 其 表达 形式 为 : 


ts(data = NA, start = 1, end = numeric(), frequency = 1, 
deltat = 1, ts.eps = getOption("ts.eps"), class = , names = ) 
其 中 ，data 是 时 间 序列 观测 值 对 象 ， 必 须 为 数值 类 型 的 向 量 、 和 矩阵 或 数据 框 ; start 是 用 来 指定 时 间 序 列 观测 值 对 象 的 第 一 个 时 间 点 ， 比 如 2015 年 1 月 ， 则 设置 start=c (2015，1) ; end 用 来 指定 时 间 
序列 的 终止 时 间 点 ; frequency 用 来 指定 数据 在 一 年 中 的 频数 ， 如 果 设 置 为 12， 即 把 一 年 分 成 12 份 ， 每 个 样本 表示 一 个 月 。 


表 6-1 是 某 游 戏 2014 年 1 月 到 2016 年 6 月 的 每 月 收入 数据 ， 将 收入 数据 转换 成 时 间 序列 对 象 ， 为 建立 时 序 模 型 做 前 期 准备 。 


表 6-1 某 游戏 的 收入 数据 


将 数据 导入 R 中 ， 通 过 ts 函数 将 收入 转换 成 时 间 序 列 对 象 ， 并 通过 is.ts 函 数 判断 对 象 是 否 为 时 间 序 列 对 象 。 执 行 以 下 代码 。 


> revenue <- teadq.csv(" 收 入 数据 .csv"yTT) # 导入 数据 

> head (revenue) # 查看 前 六 行 日 期 收入 
2014 年 1 月 69359 
2014 年 2 月 84741 
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2014 年 6 月 68972 
> tevenue .ts <- ts (revenue [,2]，fredquency = 12,start = c(2014,1)) # 转换 成 时 间 序 列 对 象 
> is.ts (revenue .ts) # 判断 是 否 为 时 间 序 列 对 象 
[1] TRUE 


可 以 利用 start、end、fredquency 函 数 查看 开始 日 期 、 结 束 日 期 和 一 个 周期 的 频数 。 


> start (revenue .ts) # 查看 开始 日 期 

[1] 2014 ] 

> end (revenue .ts) # 查看 结束 日 期 

[1] 2016 6 

> frequency (revenue .ts) # 查看 一 个 周期 的 频数 
[二] 2 


通过 plot.ts 函 数 可 以 绘制 时 间 序 列 的 时 序 图 。 执 行 以 下 代码 绘制 时 序 图 ， 并 添加 线性 拟 合 直线 。 结 果 如 图 6-9 所 示 。 


> PLot .ts (revenue.ts,xlab=" 时 间 ",ylab=" 收 入 ") 
> abline (lm(revenue.ts~time (revenue.ts)),col="red",1ty=2,1wd=2) 
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收入 
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2014.0 2014.5 2015.0 2015.5 2016.0 2010.35 
时 间 
图 6-9 ”对 时 间 序 列 对 象 绘制 时 序 图 


根据 平稳 时 间 序 列 的 均值 和 方差 都 为 常数 的 性 质 ， 平 稳 序列 的 时 序 图 显示 该 序列 值 始 终 在 一 个 常数 附近 随机 波动 ， 而 且 波 动 的 范围 有 界 ; 如 果 有 明显 的 趋势 性 或 者 周期 性 ， 那 它 通常 不 是 平稳 序列 。 从 
图 6-9 可 知 ， 它 不 是 一 个 平稳 序列 。 


对 于 时 间 序 列 的 平稳 性 检验 通常 使 用 单位 根 检验 的 方法 。 在 R 中 ， 可 以 使 用 fUnit-Roots 包 中 的 unitrootTest 函 数 实现 。 其 用 法 如 下 。 


unitrootTest (x, lags = 1, type = c("nc", "c", "ct"), title = NULL, description = NULL) 


其 中 ， 输 入 参数 x 为 观测 值 序列 ，1lags 为 用 于 校正 误差 项 的 最 大 沾 后 项 ，type 为 单位 根 的 回归 类 型 ， 返 回 的 参数 p 值 0.0?， 表 示 满 足 单位 根 检验 。 


> library(fUnitRoots) 
> unitrootTest (revenue .ts) 
Title: 
Augmented Dickey-Fuller Test 
Test Results : 
PARAME.TER: 
Lag Order: 1 
STATISTIC: 
Der: =| ,738 
P VALUE : 
t: O02139 
n: 0.4314 
Description: 
Tue Jul 26 20:55:45 2016 by user: Think 


单位 根 检验 统计 量 对 应 的 p 值 为 0.2139， 其 显著 大 于 0.05， 故 可 以 判断 该 时 间 序 列 为 非 平稳 序列 。 


对 于 非 平稳 时 间 序 列 ， 首 先 需 要 对 其 进行 差分 得 到 一 个 平稳 时 间 序 列 。 在 R 软 件 中 ， 可 以 使 用 diff () 冰 数 对 时 间 序 列 进行 差分 运算 ，diff () 函数 的 用 法 如 下 。 


diff(x, lag = 1, differences = 1, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/...) 


其 中 ， 输 入 参数 x 代 表 观 测 值 序列 ; lag 代 表 差 分 运算 的 步 数 ， 缺 省 值 代表 一 步 差分 ; differences 代 表 差 分 运算 的 阶 数 ， 缺 省 值 代表 一 阶 差分 。 
对 revenue.ts 时 间 序 列 对 象 进行 一 阶 差 分 处 理 ， 并 进行 平稳 性 检验 。 


> # 进行 一 阶 差 分 运算 
> revenue.ts.dif <- 
> ## 验证 其 平稳 性 
> unitrootTest (revenue.ts.dif) 
Title: 
Augmented Dickey-Fuller Test 
Test Results: 

PARAMETER: 
Lag Order: 1 
STALTLSLTIC: 
DF: ~4.6456 
P VALUE : 
t: 4.186e-05 

n: 0.1219 

Description: 
Wed Jul 27 10:30:19 2016 by user: Think 


diff (revenue.ts) 


可 见 ， 进 行 一 阶 差分 后 的 单位 根 检 验 统计 量 对 应 的 p 值 远 小 于 0.05， 故 可 以 判断 处 理 后 的 时 间 序 列 为 平稳 序列 。 


时 间 序 列 的 变化 主要 受到 长 期 趋势 、 季 节 变动 、 周 期 变动 和 噪声 变动 这 4 个 因素 所 影响 。 根 据 序列 的 特点 ， 可 以 构建 加 法 模型 和 乘法 模型 ， 通 过 decompose () 函数 实现 ， 其 基本 表达 形式 为 : 


decompose (x, type = c("additive", "multiplicative"), filter = NULD) 


其 中 ，x 为 时 间 序 列 对 象 ;type 指定 是 分 解 为 加 法 模型 还 是 乘法 模型 ， filter 是 滤波 系数 。 


把 revenue.ts 时 序 对 象 拆 分 为 加 法 模型 ， 并 绘制 拆 分 后 的 时 间 序 列 分 解 图 。 结 果 如 图 6-10 所 示 。 


> revenue.ts.decompose <- decompose (revenue.ts) 


> plot (revenue.ts.decompose) 


图 6-10 包 含 4 部 分 ， 自 上 而 下 依次 为 : 原始 时 间 序 列 的 观测 值 、 时 间 序 列 分 解 趋势 图 、 时 间 序 列 分 解 季节 变动 图 、 时 间 序 列 分 解 噪声 图 。 从 分 解 的 趋势 图 看 出 ， 收 入 在 2014 年 中 开始 到 2015 年 初 ， 有 大 
幅度 的 提升 ， 主 要 原因 是 2014 年 8 月 公司 在 美国 纳 斯 达 克 上 市 。 从 分 解 季节 变动 图 看 出 ， 在 嗜 假 和 寒假 期 间 收 入 会 有 明显 增长 ， 这 与 游戏 特性 有 关 ， 休 闲 类 手 游 的 玩家 主要 是 年 轻 人 ， 故 在 放假 期 间 ， 游 戏 
的 用 户 和 付费 都 有 明显 增长 。 


Decomposition of additive time series 
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Time 
图 6-10 ”decompose 季 节 性 时 间 序 列 分 解 图 


可 以 查看 decompose () 分 解 出 来 的 某 一 部 分 内 容 ， 如 查看 季节 变化 数据 。 


> revenue.ts.decompose$seasonal 
Jan Feb Mar Apr May Jun 

2014 -206.2309 167161.8108 70593.5608 11799.6858 -7844.0226 -47412.0226 
2015 -206.2309 167161.8108 70593.5608 11799.6858 -7844.0226 -47412.0226 
2016 -206.2309 167161.8108 70593.5608 11799.6858 -7844.0226 -47412.0226 
Jul Aug Sep Ge Nov Dec 
15756.3108 10607.0399 -46411.0851 -42248.4809 -72030.3976 -59766.1684 
157156.3108 10607.0399 -46411.0851 -42248.4809 -72030.3976 -59766.1684 


OD CO Oo 


可 见 ， 每 年 的 2 月 、3 月 、7 月 、8 月 是 收入 高 峰 期 。 


指数 平滑 法 和 ARIMA 模 型 是 时 下 较为 流行 的 时 间 序列 分 析 模 型 。 指 数 平 滑 预 测 的 数值 不 仅 可 以 体现 指标 的 长 期 变化 趋势 ， 还 能 体现 其 周期 性 变化 趋势 。ARIMA 模 型 则 是 通过 对 白 噪 声 的 组 合 来 建立 模 
型 ， 并 保证 模型 和 实际 数据 的 残 差 也 是 一 个 均值 很 小 的 正 态 分 布 数据 。 


~ 


在 R 中 ， 简 单 指数 平滑 法 、Holt 双 参数 线性 指数 平滑 法 、Winters 线 性 和 季节 性 指数 平滑 法 可 以 通过 HoltWinters () 函数 实现 。 该 函数 的 用 法 如 下 。 


HoltWinters (x, alpha = NULL, beta = NULL, gamma = NULL, 
seasonal = cl("additive", "multiplicative"), 
start.periods = 2, 1.start = NULL, b.start = NULL, 
s.start = NULL, 
optim.start = c(alpha = 0.3, beta = 0.1, gamma = 0.1)， 
optim.control = list()) 


具体 的 参数 描述 如 表 6-2 所 示 。 


表 6-2 ”HoltWintets 函 数 的 参数 描述 


参 数 摘 述 
x x 为 时 间 厅 列 对 象 


alpha 、beta 、gamma 都 是 HoltWinters 算法 的 过 滤 系 数 。beta 和 gamma 是 Holt 指数 平滑 法 或 
alpha Winters 指数 平滑 法 的 参数 。alpha 是 一 次 平滑 系数 ，beta 是 二 次 (趋势 ) 平滑 系数 ，gamma 是 


beta 三 次 (周期 ) 平滑 系数 ; 如 果 beta 设置 为 FALSE， 该 图 数 将 做 指数 平滑 ; 如 果 gamma 指定 为 
gamma FALSE， 那 么 该 困 数 适用 于 拟 合 非 季 节 性 模型 ; 如 采 gamma 与 beta 同时 指定 为 FALSE， 那 么 该 


国 数 适用 于 简单 指数 平滑 模型 

三 次 指数 平滑 的 方式 : 取 值 为 additive 表示 使 用 累加 方式 ， 取 值 为 multiplicative 表示 使 用 累 乘 
方式 。 如 果 gamma 取 值 为 FALSE ， 则 参数 无 效 
start.periods 计算 周期 长 度 前 的 初始 值 ， 不 能 小 于 2 


].start 
b.start 1.start 、b.start 、s.start 分 别 表 示 启 动 值 、 趋 势 值 和 季节 分 量 的 初始 值 


s.start 


seasonal 


设置 问 量 命名 的 组 件 alpha、beta、gamma 包含 优化 的 初始 值 ， 必 须 指定 唯一 需要 的 值 ， 在 只 使 


tim.start 米 2 
P| 用 alpha、beta、gamma 中 的 一 个 参数 时 忽略 本 参数 


从 图 6-9 和 图 6-10 已 知 ， 该 游戏 的 收入 数据 存在 明显 的 趋势 性 和 季节 性 。 因 此 可 以 采用 Winters 线 性 和 季节 性 指数 平滑 法 进行 建 模 预测 ， 并 利用 plot 函 数 绘制 模型 拟 合 图 ， 结 果 如 图 6-11 所 示 。 


> HoltWintersModel <- HoltWinters (revenue.ts,alpha=TRUE,beta=TRUE,gamma=TRUE) 
> HoltWintersMode] 
Holt-Winters exponential smoothing with trend and additive seasonal component. 
Call: 

HoltWinters (x = revenue.ts, alpha = TRUE, beta = TRUE, gamma = TRUE) 


04684.7986 
b 37317.0000 
s1 -172.3819 


> plot (HoltWintersModel ,lty= 1,1lty.predicted = 2) 


Holt—Winters filtering 
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Time 
图 6-11 通过 HoltWinters 建 立 的 模型 拟 合 图 


HoltWinters () 函数 仅 得 到 预测 模型 ， 如 果 要 预测 未 来 的 时 间 ， 需 要 调用 forecast 扩 展 包 中 的 forecast.HoltWinters () 函数 。 


> # 利用 forecast.HolLtNWinters 函 数 对 未 来 6 个 月 进行 预测 

> library (forecast) 

> HoltWintersForecast <- forecast.HoltWinters (HoltWintersModel,h=6, level=c (80, 95)) 

> HoltWintersForecast 
Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 


Jul 2016 41829.4 93129.42 190529.4 67349.199 216309.6 
Aug 2016 169451 .2 60554.70 278347.7 2908.3/16 335994,0 
Sep 2016 1 .7312.3..1 -9095.62 355341.8 -105556.374 451802.5 
Oct 2016 221266.5 -45474.33 488007.4 -186678.413 629211.5 
Nov 2016 2255 /12 =135596572 586741.0 .=326787:955. 7771932.2 
Dec 2016 262237.3 -202331.07 726805.7 -448258.705 972733.3 


第 一 列 是 对 2016 年 下 半年 的 收入 预测 ， 中 间 两 列 是 80% 的 置信 区 间 ， 最 后 两 列 是 95% 的 置信 和 区间。 可 以 通过 acf () 函数 绘制 模型 残 差 自 相关 图 ， 结 果 如 图 6-12 所 示 。 


> # 对 残 差 进行 检验 
> acf (HoltWintersForecast$residuals, lag.max = 20) 


由 模型 残 差 自 相关 图 可 知 ， 各 阶 的 残 差 系 数 都 没有 超过 置信 区 间 ， 可 以 判断 该 残 差 是 不 相关 的 ， 模 型 对 该 游戏 的 收入 数据 拟 合 效 果 不 错 。 


通过 plot 冰 数 绘制 出 原始 值 与 预测 值 的 图 形 ， 以 便 更 直观 地 观察 未 来 半年 游戏 收入 的 变化 趋势 。 结 果 如 图 6-13 所 示 。 


> plot (HoltWintersForecast) 


Series HoltWintersForecast$residuals 


EE 
Oy 
< 
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 
Lag 
图 6-12 ”模型 残 差 自 相关 图 
Forecasts from HoltWinters 
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图 6-13 ”利用 HoltWinters 函 数 绘制 的 模型 预测 图 
图 6-13 中 的 前 半 段 曲线 表示 历史 真实 值 ， 末 尾 曲 线 表示 未 来 半年 的 预测 值 ， 阴 影 面积 分 别 表示 809%、959% 的 置信 区 间 。 


在 R 中 ，arima () 函数 设置 时 序 模式 的 建 模 参数 ， 创 建 ARIMA 时 序 模型 或 者 把 一 个 回归 时 序 模型 转换 为 ARIMA 模 型 。 其 形式 为 : 


arima (x, order, seasonal, period,method, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/...) 


其 中 ，x 为 观测 值 序列 ，order 为 构建 的 ARIMA (P，d，9q) 模型 的 参数 ，seasonal 为 模型 的 季节 性 参数 ，period 为 观测 值 序列 的 周期 ，method 为 估计 模型 参数 使 用 的 方法 。 


可 以 利用 diff 函 数 、acf 函 数 、pacf 函 数 确定 ARIMA 模 型 中 的 d、q、p 值 ， 从 而 建立 预测 模型 对 未 来 进行 预测 。 由 于 确定 这 三 个 值 需要 具备 一 定 的 统计 学 背景 知识 ， 这 里 利用 forecast 包 中 的 auto.arima 
函数 ， 默 认 利 用 AIC 准 则 ， 自 动 寻找 最 优 的 p、d、q， 建 立 预测 模型 ;并 通过 forecast 函 数 对 未 来 6 个 月 进行 预测 ， 利 用 plot 函 数 绘制 模型 预测 图 ， 结 果 如 图 6-14 所 示 。 


library (forecast) 

fit <- auto.arima (revenue .ts) 

1 

eries: revenue.ts 

RIMA (0,1,0) (0,1,0) [12] 

igma^2 estimated as 3.395e+09: log likelihood=-210.66 

IC=423.32 AICc=423.59 BIC=424.15 

fit.forecast <- forecast (fit,h=6) 

it.forecast 

Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 

143605 68929.78 218280.2 29399.10 257810.9 

137927 32320..29 .243533.7 -23584.53 299438.5 

48021 -81320.28 177362.3 -149789.42 245831.4 
4 8 
9 1 
2 2 
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35678 -113672.44 185028. -192733.79 264089 . 
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图 6-14 ”利用 auto.atima 溪 数 进行 的 模型 预测 图 


6.3” 滔 戏 数据 相关 分 析 


游戏 各 个 指标 之 间 存 在 某 些 关系 ， 比 如 付费 用 户 数 可 能 会 随 着 活跃 用 户 数 的 增加 而 增加 ， 随 着 活跃 用 户 数 的 减少 而 减少 。 男 性 和 女性 玩家 也 许 存 在 游戏 登录 时 间 段 差异 性 ， 等 等 。 这 时 可 以 借助 相关 性 
分 析 ， 友 现 不 同 指标 间 的 内 在 关系 ， 并 将 其 量化 和 可 视 化 。 


6.3.1 ”相关 分 析 基 本 原理 


前 面 的 趋势 分 析 是 针对 单 变量 研究 的 ， 有 时 候 需 要 研究 不 同 变 量 间 的 关系 。 例 如 由 在 数据 可 视 化 中 的 每 日 活跃 用 户 与 新 增 用 户 散 点 图 可 知 ， 活 路 用 户 会 随 着 新 增 用 户 的 增 大 而 增 大 ， 随 着 新 增 用 户 的 减 
少 而 减少 ， 但 是 这 个 关系 如 何 将 其 量化 出 来 ， 就 需要 利用 多 元 数据 的 相关 分 析 技 术 。 


相关 分 析 就 是 分 析 连 续 变 量 之 间 线 性 相关 程度 的 强 弱 ， 并 用 适当 的 统计 指标 表示 出 来 的 过 程 。 相 关系 数 可 以 用 来 描述 连续 变量 之 间 的 关系 ， 相 关系 数 的 符号 ( 正 负 ) 表明 关系 的 方向 ( 正 相关 或 负 相 
关 ) ,数值 大 小 表示 关系 的 强 弱 (完全 不 相关 时 为 0， 完 全 相关 时 为 1) 。 


在 二 元 变量 的 相关 分 析 过 程 中 ， 比 较 常 用 的 有 Pearson 相 关系 数 、spearman 秩 相关 系数 和 Kendall 担 Tau 相 关系 数 。Pearson 相 关系 数 一 般 用 于 对 定 距 变量 的 数据 进行 计算 ， 即 分 析 两 个 连续 性 变量 之 
间 的 关系 ; Spearman 秩 相关 系数 用 于 描述 分 类 或 等 级 变量 之 间 、 分 类 或 等 级 变量 与 连续 变量 之 间 的 关系 ; Kendall 担 Tau 相 关系 数 也 是 一 种 非 参数 的 等 级 相关 的 度量 。 


在 R 中 ，cor () 函数 可 以 计算 这 三 种 关系 ， 其 国 数 的 主要 参数 为 : 
COF (x, USe=, method=) 


其 中 ，x 是 数值 型 变量 的 矩阵 或 数据 框 ; use 指 定 缺 失 值 的 处 理 方式 : all.obs (假设 不 存在 缺失 数据 ， 如 遇 到 缺失 数据 时 会 报错 ) 、everything ( 遇 到 缺失 值 时 ， 相 关系 数 的 计算 结果 将 被 设 为 
missing) 、complete.obs ( 行 删 除 ) 以 及 pairwise.complete.obs (成 对 删除 ) ; method 指 定 相 关系 数 的 类 型 ， 包 括 pearson、spearman、kendall。 在 默认 情况 下 ， 参 数 use="everything" ， 参 数 


method="pearson "。 


以 VIM 包 中 的 睡眠 数据 集 sleep 为 例 ， 研 究 各 变量 间 的 关系 。 因 某 些 变 量 存 在 缺失 值 ， 所 以 在 使 用 cor 遂 数 时 ， 将 参数 use 设 置 为 Complete.obs。 


> data (sleep,package = "VIM") 

> round(cor (sleep,use="complete.obs"),3) 

BodyWgt BrainWgt NonD Dream Sleep Span Gest Pred Exp Danger 

.096 0.406 0.259 


BodyWgt 1.000 0.956 -0.394 -0.075 -0.343 0.470 0.714 0 

BrainWgt 0.956 1 .000 -0.387 -0074 -V337 (Vi629 O734 -6052 0.323 0;1351 
NonD =0.394 =0%387 1:000 0.3518 .968 =0.312 =0.606 =0.353 =0,580 =0;,533 
Dream -0.075 -0.074 O0518 1.000 O717 -0.268 =0.409 -0.398 -0.504 =-0.572 
Sileep -0.343 =0.337 0.968 0.717 1.000 =0.382 =0.614 =0.405 =0.621 =0.604 
Span 0.470 0.629 -0.372 -0.268 -0.382 1.000. 0.646 -0,.170 0.316 .0845 
Gast 0.714 0.734 -0.606 -0.409 -0.614 0.646 1.000 0.091 0.573 0.306 
Pred 0.096 =0.015 =0.353 =0.398 =0,.405 =0,170 0.031] 1.000 0Q.626 0.927 
Exp 0.406 O05323 -0.580 -V504 -V621 Qi316 O313 0.626 1.000 O790 
Danger U0.239 UL =0.3533 =0.572 =0.604 0.015 0306 0.927 VY.790 1.000 


变量 BodyWgt (身体 重量 ) 与 BrainWgt ( 脑 重 量 ) 的 相关 系数 是 0.956， 说明 两 者 具有 很 强 的 正 相 关 性 。 接 下 来 ， 利 用 cor.test () 函数 对 这 两 个 变量 相关 性 进行 显著 性 检验 。 


> sleepClean <- na.omit (sleep) 
> attach (sleepClean) 
> cor.test (BodyWgt, BrainWgt) 
Pearson's product-moment correlation 
data: BodyWgt and BrainWgt 
t = 20.572, df = 40, p-value < 2.2e-16 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
0.9188566 0.9761860 

sample estimates: 

Cor 
0.9558487 


以 上 代码 检验 了 体重 与 脑 重 的 pearson 相 关系 数 为 0 的 原 假设 。 由 于 t 检 验 的 p 值 远 小 于 0.05， 说 明 这 种 情况 几乎 不 可 能 发 生 ， 从 而 拒绝 原 假设 ,接受 体重 和 脑 重 之 间 的 相关 度 不 为 0。 


但 是 cor.test 函 数 每 次 只 能 检验 一 种 相关 关系 。 可 以 利用 psych 包 中 的 corr.test () 函数 计算 pearson、spearman 或 Kendall 的 相关 矩阵 和 显著 性 水 平 。 


> library (psych) 

> corr.test (sleepClean) 

Call:corr.test (x = sleepClean) 

Correlation matrix 

BodyWgt BrainWgt NonDDream Sleep Span Gest Pred Exp Danger 
1 - 


BodyWgt .00 0.96 -0.39 -0.07 -0.34 0.47 0.71 0.10 0.41 0.26 
BrainWgt 0.96 1L.00 =0:39 =0.07 三 034，0563- ;0373 S0%02 0532 Dsls 
NonD =0539 =0.39 la00 0.52 0%97 二 0537 二 0.61 =0,.35 =0%558 =0%53 
Dream -0.07 -0.07 0.52 1.00 0.72 -0.27 -0.41 -0.40 -0.50 -0.57 
Sleep -0.34 -0.34 0.97 0.72 1.00 -0.38 -0.61 -0.40 -0.62 -0.60 
Span 0.47 0.63 -0.37 -0.27 -0.38 1.00 0.65 -0.17 0.32 0.01 
Gest 0.7] Qe73 =0.61 =0.4L =0.6l QQ.65. 1.00 0.09. 0.537 0 .3 
Pred O10 二 0%02: =0.35 二 0400=0540 =0%17 .0Q.09 Ti00 "05:63 .93 
Exp 0.41 0532 二 0258 =0%50 062 ‘O32 ‘057 "0%63 Li00 DY9 
Danger 0.26 O015.=0553 -=0.57 =07560 ‘O01 O053L O93 ‘0x79 ‘100 
Sample Size 

[1] 42 


Probability values (Entries above the diagonal are adjusted for multiple tests.) 


BodyWgt BrainWgt NonD Dream Sleep Span Gest Pred Exp Danger 
BodyWgt 0.00 0.00 0.20 1.00 0.39 0.04 0.00 1.00 0.18 0.88 
BrainWgt 0.00 0.00 ‘022 .00 0.41 0.00 0.00 1.00 0.48 1.00 
NonD 0.01 QOL O00 O01 ©0800 0,26 .0.00.0535 0:00 .001 
Dream 0.64 0.64 ‘000 ©0800 ‘0.00 0.86 0.17 0.19 0.02 0.00 
Sleep 0.03 0.03 0.00 ‘0.00 0.00 0.22 0.00 0.18 0.00 0.00 
Span 0.00 0.00 0502 0.09 O001 Qi00 0.00 1.00 050 .00 
Gest 0.00 0.00 0.00 0.01 0.00 0.00 0.00 1.00 0.00 “0.53 
Pred 0.:55 0.92 0.02 0.01 0.01 0.28 0.57 0.00 0.00 0.00 
Exp 0.01 0.04 0.00 0.00 0.00 0.04 0.00 0.00 0.00 0.00 
Danger 0.10 0.34 0.00 0.00 0.00 0.93 0.05 0.00 0.00 0.00 

To see confidence intervals of the correlations, print with the short=FALSE option 


BodyWgt (体重 ) 与 Dream (做 梦 ) 的 相关 系数 是 -0.07， 并 不 显著 为 0 (p=0.64) 。 


.2 ”相关 关系 可 视 化 


相关 系数 矩阵 可 以 很 直观 地 展示 各 变量 间 的 关系 强 弱 ， 但 是 随 着 变量 的 增加 ， 想 从 相关 系数 矩阵 中 快速 发 现 不 同 变量 间 的 关系 和 强 弱 变 得 困难 ， 此 时 可 以 利用 相关 图 可 视 化 展示 相关 系数 矩 阵 。 
在 R 中 ， 绘 制 相关 图 的 方式 有 很 多 种 ， 最 常用 的 是 corrgram 扩 展 包 中 的 corrgram 函 数 ， 以 及 魏 太 云 开发 的 corrplot 包 中 的 corrplot 函 数 。 


首先 ， 利 用 corrgram 消 数 对 sleepClean 数 据 集 绘 制 相关 系数 图 。 结 果 如 图 6-15 所 示 。 


> library (corrgram) 

> corrgram(sleepClean, order=T, lower .panel=panel .shade, 
十 upper .panel=panel .pie, text .panel=panel .txt, 
+ main=" 利 用 corrgram 东 数 绘 制 相关 系数 图 ") 


利用 corrgram 晴 数 综 制 相 关系 数 图 
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图 6-15 利用 cottregram 函 数 绘制 相关 系数 图 


在 图 6-15 中 ， 上 三 角 用 饼 图 表示 各 变量 间 的 相关 系数 ， 从 12 点 方向 顺 时 针 进 行 面积 填充 表示 正 相 关 ， 从 12 点 方向 逆 时 针 进 行 面 积 填充 表示 负 相 关 ， 也 可 从 颜色 深浅 进行 区 分 ， 深 色 表示 正 相关 ， 浅 色 表 
示 负 相关 ; 颜色 由 浅 到 深 表示 相关 系数 的 值 由 小 到 大 ， 也 可 以 从 填充 面积 了 解 相关 系数 值 的 大 小 ， 填 充 面 积 越 大 ， 说 明 相关 系数 值 越 大 。 下 三 角 用 阴影 面积 表示 各 变量 间 的 相关 系数 ， 深 色 表 示 正 相关 ， 浅 
色 表 示 负 相关 ， 颜 色 从 浅 到 深 表 示 相 关系 数值 由 小 到 大 ， 此 外 ， 也 可 以 从 图 形 中 的 白 线 区 分 相关 系数 的 正 负 性 ,日 线 由 左上 角 到 右 下 角 绘制 表 示 负 相关 ， 白 线 由 左下 角 到 右上 角 绘制 表示 正 相 关 。 


从 图 6-14 可 以 查看 各 变量 的 相关 系数 方向 和 大 小 ， 但 是 不 能 直接 读 出 相关 系数 值 ， 可 以 通过 参数 lower.panel=panel.cor 展 示 相 关系 数值 。 结 果 如 图 6-16 所 示 。 


> corrgram(sleepClean,order=T, lower.panel=panel .cor, 
十 upper .panel=panel .pie, text .panel=panel .txt, 
+ main=" 利 用 Corrgram 骂 数 绘制 相关 系数 图 ") 


在 图 6-16 中 ， 上 三 角 的 变量 Sleep 和 NonD 两 者 间 的 饼 图 深 色 面积 几乎 填充 了 整个 加 ,说 明 两 者 有 很 强 的 正 相关 ， 在 下 三 角 找到 其 对 应 的 相关 系数 是 0.97， 说 明 存 在 超 强 正 相关 。 


接 下 来 ， 利 用 corrplot 国 数 对 sleepClean 数 据 集 绘制 相关 系数 图 。 由 于 corrplot 的 对 象 是 相关 系数 矩阵 ， 所 以 需要 先 求 出 sleepClean 数 据 集中 的 相关 系数 矩阵 再 绘图 。 结 果 如 图 6-17 所 示 。 


> library (corrplot) 
> M <- cor(sleepClean) 
> corrplot (M,main=" 利 用 corrplot 骂 数 绘制 相关 系数 图 ") 
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图 6-16 ”利用 cottrgram 函 数 绘制 相关 系数 图 ， 下 三 角 显 示 相 关系 数 
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图 6-17 “利用 cottplot 函 数 绘制 相关 系数 图 
在 图 6-17 中 ， 右 边 的 色 度 条 说 明 深 色 代 表 正 相关 ， 浅 色 代 表 负 相关 ， 颜 色 由 浅 到 深 表示 相关 系数 值 由 小 到 大 ; 图 中 的 圆圈 大 小 也 能 反映 相关 系数 值 的 大 小 ， 圆 圈 越 大 ， 说 明 相关 系数 值 越 大 。 


也 可 以 用 corrplot.mixed 遂 数 实现 上 下 三 角 区 域 用 不 同形 式 展示 变量 间 的 相关 系数 。 例 如 ， 想 在 上 三 角 展 示 相关 系数 实际 值 ， 下 三 角 用 椭圆 展示 。 执 行 以 下 代码 得 到 的 结果 如 图 6-18 所 示 。 


> corrplot.mixed(M, lower = "ellipse", upper = "number", 
十 tl1.pos="lt",diag="u") 


在 图 6-18 中 ， 上 三 角 显 示 变 量 间 的 相关 系数 ， 浅 色 字 体 表示 正 相 关 ， 深 色 字体 表示 负 相 关 ， 颜 色 深浅 表示 数值 大 小 ; 下 三 角 的 椭圆 越 扇 ， 表 示 相 关系 数值 越 大 ， 李 圆 向 左倾 斜 表示 负 相关 ， 向 右倾 斜 表 
示 正 相关 ， 颜 色 由 浅 到 深 表示 相关 系数 值 由 小 到 大 ， 蓝 色 表 示 正 相关 ， 红 色 表 示 负 相关 。 
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图 6-18 利用 corrplot.mixed 呢 数 绘制 相关 系数 图 


6.3.3 ”活跃 时 间 段 相关 分 析 


logindata 数 据 集 收录 了 30000 位 玩家 上 个 月 在 不 同 渠道 、 不 同 游戏 的 登录 天 数 和 登录 次 数 的 数据 。 将 数据 导入 R 中 ， 并 查看 数据 结构 。 


> logindata <- read.csv("data\\logindata.csv") 
> Sg 


'data.frame' 30000 obs. of 7 variables: 

$ 渠道 名 称 : Factor Ww/ 15 levels "渠道 A&" "渠道 B", http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/..: 257711595115 
$ 游戏 名 称 : Factor w/ 7 levels "游戏 A", "游戏 B",http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/..: 5313334353nt 
$ 是 否 付 费 : Factor w/ 2 levels " 否 "," 是 ":1111111222 http://ww.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 

$ 性 别 : Factor w/ 2 levels " 男 ", 1 1111222121 http://ww.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 

$ 年 龄 : int 39 50 38 53 28 37 49 52 31 42 nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/O0EBPS/Text/... 

$ 登录 天 数 : Factor W/ 5 levels "1 天 " "2 天 "y "3 天 "http://www.hzcourse.com/resource/reaqBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/..: 5553353555 
$ 登录 次 数 : Factor w/ 9 levels "100 次 以 上 " "11 至 20 次 ",http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompresseq/16401/OEBPSVText/..: 98666668 
> dim(logindata) 

[1] 30000 7 


可 见 ， 除 了 年 龄 变量 是 数值 型 变量 外 ， 其 他 变量 均 为 因子 型 变量 。 由 于 cor 函 数 要 求 是 数值 型 变量 ， 所 以 需要 先 将 这 些 变量 进行 哑 变 量 处 理 ， 再 求 出 新 变量 间 的 相关 系数 值 。 利 用 前 文 提 到 的 caret 包 中 
的 dummyVars 函 数 进 行 哑 变 量 处 理 。 


> library (caret) 

> dmy<-dummyVars (~.,data=logindata) 

> dmyTsrf<-data. a (predict (dmy, newdata=logindata)) 
> dim(dmyTesrf 
[1] 30000 41 
> str Vom le 


< 二 


~ 一 


'data.frame' 30000 obs. of 41 variables: 

$ 渠道 名 称 . 渠道 :num 0000000000 http://ww.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 

$ 渠道 名 称 .渠道 B :num 100000000 0 http://ww.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 

$ 渠道 名 称 .渠道 C :num 0000000000 http://ww.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/....…: 
$ 登录 次 数 .41 至 50 次 : num 0000000000 http://ww.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/O0EBPS/Text/... 

$ 登录 次 数 .51 至 60 次 : num 0100000100 http://ww.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 

$ 登录 次 数 .61 至 100 次 : num 1000000000 http://ww.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 


可 见 ， 经 过 哑 变 量 处 理 后 ， 所 有 变量 都 已 经 转换 成 数值 型 变量 。 利 用 自 定 义 函 数 求 出 变量 间 的 相关 系数 值 及 其 显著 性 检验 的 P 值 ， 并 对 结果 按照 相关 系数 绝对 值 进行 降序 排列 。 


# 导入 自 定义 的 求 相关 系数 函数 

source ("code//CorrelationFunction.R") 
corMasterList<-flattenSquareMatrix (cor.prob (dmyTsrf)) 
# 按照 相关 系数 的 绝对 值 进行 降序 排列 


CorList<-corMasterList[order (-abs (CorMasterListScor) )，] 


MMVMVYMYVMY 


> print 20 10)) 


COF p 
276 是 否 付 费 . 否 是 否 付 费 ， 是 -1. 0000000 0 
325 性 别 . 男性 别 ， 女 -1.0000000 0 
562 渠道 名 称 . 渠 道 A 登录 次 数 .1 次 0.9984244 0 
495 登录 天 数 .3 天 登录 天 数 .5 天 以 上 -0.7887687 0 
189 游戏 名 称 .游戏 C 游戏 名 称 . 游 戏 E -0.6439172 0 
345 游戏 名 称 .游戏 年 龄 -0.5335248 0 
249 游戏 名 称 .游戏 C 是 否 付 费 . 否 -0.4442365 0 
有 2 了 下 游戏 名 称 . 游 戏 C 是 否 付 费 . 是 ”0.4442365 0 
779 登录 次 数 .31 至 40 次 登录 次 数 . oo -0.4431728 0 
494 登录 天 数 .2 天 登录 天 数 .5 天 以 上 -0.4390142 0 


我 们 发 现 ， 渠 道 A 与 登录 次 数 只 有 一 次 的 相关 系数 高 达 0.998， 人 存在 超 强 正 相 关 ， 说 明渠 道 A 的 用 户 竹 性 很 差 ， 用 户 在 首次 注册 登录 后 就 绝 大 部 分 流失 了 ; 游戏 E 与 年 龄 的 相关 系数 是 -0.533， 人 存在 明显 的 
负 相关 ， 说 明 游戏 是 适合 年 纪 较 小 的 青少年 的 小 孩 休闲 益 智 类 游戏 ; 游戏 C 与 “是 否 付费 .是 ”的 相关 系数 是 0.444， 人 存在 正 相 关 ， 说 明 游 戏 C 的 用 户 付费 意愿 相对 较 高 ， 从 活跃 用 户 到 付费 用 户 的 付费 率 高 
于 其 他 游戏 。 


最 后 ， 提 取 与 “是 否 付费 .是 ”的 相关 系数 大 于 0.04 的 记录 ， 并 绘制 相关 系数 图 ， 结 果 如 图 6-19 所 示 。 


> # 提取 与 “是 否 付 费 . 是 ”的 相关 系数 大 于 0.04 的 记录 

> selecteqSub <- subset (corList, (abs (cor)>0.04 & i Sin% Cc(' 是 否 付 费 .是 '))) 
> bestsub <- as.character (selectedSubs$]) 

> # 绘制 相关 系数 图 

> library (corrplot) 

> corrplot.mixed (cor (dmyTsrf[,c(' 是 否 付 费 . 是 ',bestsub)])， 

十 lower = "ellipse", upper = "number"， 

十 tl1.pos="lt",diag="u") 
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图 6-19 ”利用 cottplot.mixed 函 数 对 logindata 绘 制 相关 系数 图 
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6.4 ”游戏 数据 中 的 降 维 技术 
游戏 指标 存在 某 些 复杂 的 关系 ， 有 时 候 需 要 利用 降 维 技术 消除 这 些 指标 间 的 共 线 性 因素 ， 再 进行 下 一 步 的 研究 ， 或 利用 对 应 分 析 (Correspondence analysis， 也 称 为 R-Q 型 因子 分 析 ) 进行 统计 分 析 。 


6.4.1 主 成 分 及 因子 分 析 基 本 原理 


主 成 分 分 析 及 因子 分 析 的 目的 都 是 降 维 ， 就 是 减少 相关 的 变量 数目 ， 用 较 少 的 变量 来 取代 原始 变量 ， 而 这 些 新 变量 为 原始 变量 的 线性 组 合 。 这 种 转变 可 以 降低 原始 数据 的 维度 ， 也 在 此 过 程 中 发 现 原始 


数据 属性 之 间 的 关系 。 
主 成 分 分 析 的 主要 步骤 如 下 。 
1) 通常 要 先 对 各 变量 进行 标准 化 处 理 ， 消 除 量 纲 的 影响 。 
2) 选择 协 方差 或 者 相关 和 矩 阵 计 算 特征 根 及 对 应 的 特征 向 量 。 
3) 计算 方差 贡献 率 与 累积 方差 贡献 率 : 每 个 主 成 分 的 贡献 率 代表 了 原 数据 总 信息 量 的 百分比 。 
4) 确定 主 成 分 : 设 P1，P2，.…，Pn 为 n 个 主 成 分 ， 其 中 前 m 个 主 成 分 包含 的 数据 信息 总 量 ( 即 其 累积 方差 贡献 率 ) 不 低 于 80% 时 ， 可 取 前 m 个 主 成 分 来 反映 原 指标 。 
用 原 变量 的 线性 组 合 来 计算 各 主 成 分 得 分 : 以 各 主 成 分 对 原 变量 的 相关 系数 ( 即 载荷 系数 ) 为 权 ， 将 各 主 成 分 表示 为 原 变量 的 线性 组 合 。 
因子 分 析 是 主 成 分 的 推广 和 延伸 ， 是 寻找 公共 因子 的 模型 分 析 方 法 ， 它 是 在 主 成 分 的 基础 上 构筑 若干 意义 较为 明确 的 公 因 子 ， 以 它们 为 框架 分 解 原始 变量 ， 以 此 考察 原始 变量 间 的 联系 与 区 别 。 
主 成 分 分 析 是 因子 分 析 的 一 个 特例 ， 两 者 的 区 别 和 联系 主要 表现 在 以 下 方面 。 
1) 主 成 分 分 析 会 把 主 成 分 表示 成 各 个 原始 变量 的 线性 组 合 ， 因 子 分 析 则 把 原始 变量 表示 成 各 个 因子 的 线性 组 合 。 
2) 主 成 分 分 析 的 重点 在 于 解释 原始 变量 的 总 方差 ， 而 因子 分 析 的 重点 在 于 解释 原始 变量 的 协 方差 。 
3) 在 主 成 分 分 析 中 ， 有 几 个 原始 变量 就 有 几 个 主 成 分 ， 而 在 因子 分 析 中 ， 因 子 个 数 可 以 根据 业务 场景 的 需要 人 为 指定 。 
在 R 中 ， 可 以 用 princompP () 函数 实现 主 成 分 分 析 。 其 使 用 格式 为 : 


princomp (x, cor = FALSE, scores = TRUE, covmat = NULL, 
Subset = rep len (TRUE, nrowl(as.matrix(x))), http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/...) 


其 中 ，x 是 用 于 主 成 分 分 析 的 数据 ， 以 数值 矩阵 或 数据 框 的 形式 给 出 。cor 是 逻辑 变量 ，cor=TRUE 时 ， 表 示 用 样本 的 相关 矩阵 作 主 成 分 分 析 ，cor=FALSE (默认 值 ) 时 ， 表 示 用 样本 的 协 方差 阵 作 主 成 
分 分 析 。covmat 是 协 方差 阵 。 


碎 石 图 是 帮助 确定 主 成 分 合适 个 数 的 常用 手段 ， 其 将 特征 值 从 大 到 小 排列 ， 选 取 一 个 拐弯 点 (一般 以 特征 值 1 为 分 界 点 ) 对 应 的 序号 ， 此 序号 前 的 特征 值 已 经 能 解释 大 部 分 解释 方差 ， 序 号 后 的 特征 值 全 
部 较 小 且 彼 此 大 小 差不多 ， 这 样 选 出 的 号 码 作 为 主 成 分 的 个 数 。screeplot () 函数 是 画 出 主 成 分 的 碎 石 图 ， 其 使 用 格式 为 : 
screeplot (x, npcs = min(10, length (x$sdev) ) ， 


type = c("barplot", "lines"), 
main = deparse (substitute (X) ) http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/...) 


其 中 x 是 由 princomp 函 数 得 到 的 对 象 ，npcs 是 画 出 主 成 分 的 个 数 ，type 是 描述 画 出 的 碎 石 图 的 类 型 。 


可 以 用 factanal () 函数 实现 因子 分 析 ， 其 使 用 格式 为 : 


factanal (x, factors, data = NULL, covmat = NULL, n.obs = NA, 
subset, na.action, start = NULL, 
scores = c("none", "regression", "Bartlett"), 

rotation = "varimax", control = NULL, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/...) 


其 中 x 为 数值 矩阵 或 数据 框 ，factors 为 因子 个 数 ，scores 为 因子 得 分 的 计算 方法 ， 包 括 "regression"，"Bartlett" ，rotation 为 因子 旋转 方法 。 


6.4.2 ”对 应 分 析 基 本 原理 


对 应 分 析 是 在 因子 分 析 的 基础 上 发 展 起 来 的 。 对 应 分 析 把 R 型 因子 分 析 和 Q 型 因子 分 析 统 一 起 来 ， 通 过 R 型 因子 分 析 直 接 得 到 Q 型 因子 分 析 的 结果 ， 同 时 把 变量 和 样本 反映 到 相同 的 坐标 轴 (因子 轴 ) 的 
一 张 图 上 ， 以 此 来 说 明 变量 与 样本 之 间 的 对 应 关系 。 对 应 分 析 基 本 原理 主要 应 用 在 市 场 细 分 、 产 品 定位 、 竞 争 分 析 、 用 户 偏好 分 析 和 广告 研究 等 领域 。 


在 R 中 ， 实 现 对 应 分 析 有 3 个 包 : ca、MASSs、FactoMineR。 其 中 ca 包 专 门 用 于 计算 并 可 视 化 简单 对 应 分 析 、 多 重 及 联合 对 应 分 析 。5ca 包 中 的 主要 函数 有 : ca 函数 用 于 计算 简单 对 应 分 析 ; mjca 函 数 用 
于 计算 多 重 对 应 分 析 和 联合 对 应 分 析 ; print 和 summary 函 数 用 于 打印 和 汇总 ; plot 和 plot3d.ca 函 数 用 于 绘图 。 


6.4.3 ”玩家 偏好 分 析 


下 面 分 析 不 同类 型 的 玩家 在 某 款 休闲 游戏 购买 物品 的 偏好 ， 表 6-3 统 计 了 5 类 玩家 购买 过 的 各 种 道具 的 人 数 。 


表 6-3 5 类 玩家 购买 道具 的 人 数 统计 


道 ” 具 A 类 玩家 C 类 玩家 D 类 玩家 E 类 玩家 


| | 


3 
5 个 大 师 精 灵 球 7 
革 钙 驯鹿 5 
双 倍 金币 8 247 260 3 
3 
9 
9 


31 
9 
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利用 ca 包 中 的 ca 遂 数 进行 对 应 分 析 ， 结 果 如 下 。 


> w <- read.csv ("玩家 喜好 分 析 数 据 .csv",T) 起 导入 不 同类 别 玩家 的 购物 数据 
> rownames (w) <- w[,1]  # 将 道具 名 称 赋予 行 名 称 
> library (ca) 
> w.ca <- cal(w[,-1]) # 建立 简单 对 应 分 析 
果 


> w.ca # 查看 结 
Principal inertias (eigenvalues): 
1 2 3 4 
Value 0.637375 0.409408 0.259153 0.234414 
Percentage 41.38% 26.58% 16.82% 15.22% 
ROWS : 
8 个 钻 感恩 大 礼包 快速 复活 5 个 大 师 精 灵 球 圣诞 驯鹿 双 倍 人 金币 8000 个 金币 博 尔 特 
Mass 0.063300 0.020317 0.016473 0.013420 0.027631 0.016824 0.117859 0.110479 
ChiDist 1.649666 0.609828 0.326181 0.719335 ‘1.888178 ‘0.973577 1.806001] 0Q.739793 
Inertia 0.172265 0.007556 0.001753 0.006944 0.098510 0.016013 0.384414 0.060465 
Dim. 1 0.320120 0.144121 0.16446] -0.168978 0.195293 -0.001303 2.098402 -0.809544 
Dim. 2 -1.951358 -0.830042 -0.398949 -1 .034013 -1.644570 -1.304568 1.053059 0.561628 
20000 个 金币 美洲 狗 50 个 外 20 个 钻 50000 个 金币 李小龙 一 代 宗 师 - 叶 问 
Mass 0.037976 0.032968 0.022535 0.015946 0.022096 0.145028 0.174043 
ChiDist 1.614781 1.878514 0.557594 1.051324 0.789323 0,.718103 0.794963 
Inertia 0.099023 0.116338 0.007006 0.017625 0.013766 0.074787 0.109989 
Dim. 1 1.919622 -0;115794 0.035719 =0.159502 0.822755 -0.754639 -0.839328 
Dim. 2 0.783111 -1.404214 -0.820395 -1.268845 -0.557815 0.597548 0.662234 
2 个 钻 金 厅 年 春 丽 霸 天 虎 正版 激活 
Mass 0.036482 0.017857 0.066375 0.016671 0.025720 


ChiDist 1.279342 0.537729 0.610970 0.514024 3.178487 
Inertia 0.059711 0.005163 0.024777 0.004405 0.259842 
Dim. 1 0.120028 0.409876 -0.663136 0.224755 0.454375 
Dim. 2 -1.692717 -0.625129 0.474609 -0.675912 -1.538615 
Columns: 


A 类 玩家 B 类 玩家  C 类 玩家 DD 类 玩家 玉 类 玩家 
Mass 0.011114 0.173648 0.552154 0.093742 0.169343 
ChiDist 4.836399 1.689369 0.671841 1.624648 1.304444 
Inertia 0.259960 0.495584 0.249226 0.247431 0.288149 
Dim. 1 0.448497 1.993700 -0.728786 0.022681 0.289885 
Dim. 2 -2.002533 0.883860 0.518653 -1.347444 -1.720111 


输出 结果 分 为 三 部 分 : 第 一 部 分 是 Principal inertias (eigenvalues) ， 表 示 各 特征 根 的 值 及 其 贡献 率 ， 其 中 ， 第 一 特征 根 值 为 0.637375， 贡 献 率 为 41.389%， 第 二 特征 根 值 为 0.409408， 贡 献 率 为 
26.58%， 说 明 两 个 维度 可 以 解释 数据 68% 的 信息 量 ， 昌 然 不 算 太 好 ， 但 对 于 实际 数据 ， 这 样 的 结果 也 是 可 以 接受 的 ; 第 二 部 分 和 第 三 部 分 包括 ChiDist 是 列 联 表 的 卡 方 检验 结果 ; Inertia 是 惯量 ， 也 就 是 我 
们 所 说 的 特征 根 ; Dim.1 和 Dim.2 是 提取 的 两 个 因子 对 行 、 列 变量 的 因子 载荷 。 可 通过 names () 查看 因子 分 析 输 出 的 对 象 列表 。 


> names (w.ca) # 查看 因子 分 析 输 出 的 对 象 列表 
[1 Ss "nd" "rownames" "rowmass" "rowdist" "rowinertia" 
[7] "rowcoord" "rowsup" "Colnames" "Colmass" "coldist" "colinertia" 
[13] "coleoord" "colsup" "N" veall™ 


例如 ， 以 下 语句 可 以 得 到 两 个 因子 对 应 的 列 的 名 称 和 标准 坐标 。 


> w.ca$colnames # 查看 列 名 称 

[1] "A 类 玩家 " "B 类 玩家 " "WC 类 玩家 " "DD 类 玩家 " "类 玩家 " 

> w.ca$colcoord # 查看 列 的 标准 坐标 

Diml Dim2 Dim3 Dim4 

.4484967 -2.0025331 8.41104110 -3.74451069 
9937000 0.8838605 =0.03290217 =0.04073525 
“1287858 0.5186533 0.07566403 0.07235520 
.0226814 -1.3474435 -1.49574696 -2.36941939 
.2898847 -1.7201110 0.06301785 1.36323214 


(@) 
注 泊 注入 入 
SS 


下 面 使 用 plot 函 数 绘制 对 应 分 析 的 散 点 图 ， 结 果 如 图 6-20 所 示 。 


> # 绘制 对 应 分 析 的 散 点 图 

> plot (w.ca$rowcoord[,1],w.ca$rowcoord[,2],pch = 16,col = rgb(0.6,0.3,0.2), 
十 xlim = c(min(w.ca$rowcoord[,1]),max(w.ca$rowcoordl[,1])+0.3), 

十 main = "玩家 购买 物品 偏好 分 析 ") 

> text (w.ca$rowcoord[,1],w.ca$rowcoord[,2],1labels = w.ca$rownames, 
十 

> 

> 

十 


== 


Cex = 0.8,pos = 4,col = rgb(0.6,0.3,0.2)) 
points (w.ca$colcoord[,1],w.ca$colcoord[,2],pch = 17,col = "#007e7e") 


text (w.ca$colcoord[,1],w.ca$colcoord[,2],1labels = w.ca$colnames, 
Cex = 0.8,pos = 4,col = "#007e7e") 


玩家 购买 物品 俩 好 分 析 
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WwW.Ca$rowcoord[, 1] 
图 6-20 ”绘制 因子 分 析 的 散 点 图 


对 应 分 析 散 点 图 由 玩家 类 别 和 购买 道具 的 因子 坐标 值 组 成 。 物 品 离 各 类 玩家 越 近 ， 玩 家 越 喜欢 。 从 图 6-20 中 可 以 看 出 ，B 类 玩家 明显 属于 金币 类 购买 玩家 ， 明 显 偏好 于 购买 8000 个 金币 和 20000 个 金 
币 ;C 类 玩家 属于 角色 扮演 类 玩家 ， 明 显 偏 好 于 购买 春 丽 、 叶 问 、 博 尔 特等 人 物 角 色 。 


6.5 人 小结 


本 章 首先 学 习 了 游戏 数据 指标 分 析 的 常用 方法 : 对 指标 进行 可 视 化 、 同 比 、 环 比 、 利 用 实际 序列 对 时 序数 据 进 行 拟 合 预测 。 然 后 学 习 了 分 析 连 续 性 变量 关系 的 相关 分 析 及 相关 关系 可 视 化 技术 ， 对 活跃 
时 间 段 数据 进行 相关 分 析 ， 发 现 有 用 的 知识 。 最 后 学 习 了 常用 的 降 维 技术 原理 ， 并 通过 对 应 分 析 对 玩家 的 偏好 进行 分 析 。 


第 / 草 漏斗 模型 与 路 径 分 析 


游戏 分 析 中 很 重要 的 部 分 是 关键 路 径 的 转化 率 分 析 。 分 析 过 程 主要 为 : 确定 分 析 的 关键 路 径 ， 收 集 数 据 得 到 关键 路 径 中 每 条 路 径 的 人 数 (或 次 数 ) ， 以 及 各 路 径 间 的 转化 率 ， 最 后 用 路 径 展示 清晰 的 转 
化 结果 ， 从 而 整体 了 解 关键 路 径 的 设计 是 否 合理 ， 各 路 径 转 化 的 优 务 ， 是 否 存 在 优化 空间 等 。 例 如 在 通过 尘 斗 模型 查看 游戏 新 手 教程 的 转化 率 情况 ， 可 以 方便 查看 新 手 在 每 一 环节 的 流失 情况 ， 更 好 地 进行 
新 手 教程 优化 ， 将 玩家 更 好 地 推送 到 游戏 中 ， 不 至 于 在 新 手 教程 过 程 中 就 流失 。 而 路 径 分 析 的 范围 更 加 广泛 ， 除 了 对 游戏 运营 进行 监控 和 管理 外 ， 还 包括 游戏 用 户 频 繁 路 径 模 式 识 别 、 用 户 特征 分 析 。 


7.1 漏斗 模型 与 路 径 分 析 的 主要 区 别 和 联系 


漏斗 模型 是 路 径 分 析 的 特殊 形式 ， 是 专门 针对 关键 环节 进行 的 路 径 分 析 ， 两 者 都 是 针对 用 户 路 径 和 轨迹 所 进行 的 发 现 、 分 析 与 提炼 ， 而 且 两 者 的 主要 分 析 思 路 也 是 相同 的 ， 即 都 是 以 上 下 环节 转化 率 的 
计算 为 核心 ， 这 就 是 两 者 的 主要 联系 和 共同 点 。 

两 者 的 区 别 主要 表现 在 分 析 角 度 、 侧 重点 和 分 析 技术 的 不 同 。 

1. 分 析 角 度 不 同 


漏斗 模型 中 的 每 一 个 环节 都 是 由 经 过 抽象 汇总 后 的 玩家 人 数 或 点 击 次 数 的 数据 产生 的 ， 属 于 宏观 层面 的 角度 考察 每 一 环节 的 整体 流失 情况 ; 而 路 径 分 析 是 以 每 个 玩家 的 点 击 行为 数据 为 研究 基础 ， 通 过 


算法 识别 出 频繁 的 路 径 模式 ， 从 而 发 现 用 户 的 行为 特征 。 


蔷 


， 进 而 对 游戏 关卡 数值 策划 提供 改进 建议 。 而 路 径 分 析 的 用 户 更 加 广泛 ， 除 了 对 用 于 游戏 的 运营 进 4 


2. 侧 重点 不 同 


漏斗 模型 更 多 、 更 主要 用 于 游戏 的 运营 和 管理 中 ， 主 要 是 针对 游戏 中 的 关键 节点 和 关键 环节 所 进行 的 分 析 、 监 控 和 管理 。 例 如 ， 利 用 漏斗 模型 分 析 监 控 玩 家 的 任务 等 级 ， 从 而 得 出 游戏 关卡 的 用 户 流失 
监控 和 管理 外 ， 还 包括 游戏 用 户 频 繁 路 径 模 式 识别 、 用 户 特征 分 析 等 。 


3. 分 析 技 术 不 同 


相对 来 说 ， 漏 斗 模型 的 分 析 技 术 更 直观 、 更 直接 、 更 容易 理解 ， 就 是 根据 关键 环节 的 先后 顺序 ， 计 算出 每 一 步 的 转换 率 即 可 。 这 种 转换 率 的 计算 可 以 基于 用 户 的 人 数 ， 或 者 是 不 同 按钮 的 点 击 次数 ， 依 


具体 的 业务 分 析 场 景 而 定 ， 这 种 分 析 通 党 不 需要 专业 的 分 析 软 件 就 可 以 进行 ;而 路 径 分 析 采 用 的 分 析 技 术 相对 来 说 更 为 多 样 化 ， 也 更 具有 一 定 的 难度 ， 如 后 面 要 介绍 的 时 序 关联 模式 发 现 、sunburst 事 件 路 
径 图 、 社 会 网 络 图 等 ， 这 些 都 需要 借助 一 些 专业 的 挖掘 工具 (如 R 语 言 ) 才 可 以 更 加 有 效 地 完成 分 析 工 作 。 


a 


漏斗 模型 
漏斗 模型 是 指 多 个 自 定 义 事件 序列 按照 指定 顺序 依次 触发 的 流程 中 的 量化 转化 模型 。 也 就 是 从 起 点 到 终点 有 多 个 环节 ， 每 个 环节 都 会 产生 用 户 流失 ， 依 次 递 碱 ， 每 一 步 都 会 有 一 个 转化 率 。 


7.2.1 漏斗 模型 的 主要 应 用 场景 


通常 我 们 会 分 析 应 用 中 的 一 些 关键 路 径 ， 比 如 点 击 流程 、 购 买 流 程 等 。 通 过 分 析 关 键 路 径 转 化 率 ， 来 确定 整个 流程 的 设计 是 否 合理 、 各 步骤 的 优势 、 是 否 存 在 优化 的 空间 等 ， 进 而 提高 最 终 目 标的 转化 


。 漏 斗 模型 是 基于 自 定 义 事件 创建 的 。 想 要 分 析 关 键 流程 的 转化 率 ， 就 需要 先 添加 并 集成 自 定义 事件 。 一 旦 用 户 触发 了 初始 事件 ， 他 就 有 一 定 的 时 间 来 完成 漏斗。 
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图 7-1 棋牌 游戏 新 手 教程 的 关键 路 径 漏 斗 模 型 


图 7-1 是 一 款 棋牌 游戏 新 手 教程 的 漏斗 图 ， 它 是 新 玩家 注册 后 进入 游戏 弹出 新 手 教程 后 一 系列 关键 节点 的 效果 总 结 和 描述 。 从 该 漏斗 模型 可 以 看 出 ， 新 手 教程 第 一 步 是 点 击 比 牌 (给 牌 ) ， 有 13% 的 玩家 
在 比 牌 规则 还 没 结 束 就 离开 了 新 手 教 程 ， 一 共有 83% 的 玩家 去 观看 游戏 规则 教程 ， 最 后 有 73% 的 玩家 在 看 完 新 手 教程 后 返回 大 厅 。 


通过 分 析 上 述 漏斗 模型 ， 再 结合 数据 比较 标的 相应 转化 ， 就 可 以 发 现 本 次 发 布 的 新 手 教程 哪些 环节 的 效果 不 好 ， 然 后 在 后 续 版 本 中 改进 ， 最 终 提 升 整体 的 转化 率 。 因 此 ， 漏 斗 模型 常常 会 作为 数据 化 运 
营 中 最 基本 的 管理 工具 和 分 析 思 路 。 


7.2.2 ”分析 案例 : 新 手 教程 漏斗 模型 


某 款 棋牌 游戏 的 新 手 教程 的 点 击 事件 步骤 如 图 7-2 所 示 。 
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图 7-2 ”棋牌 游戏 新 手 教程 点 击 事件 步骤 
统计 新 手 教程 的 关键 步骤 用 户 数 ， 得 到 的 关键 路 径 转 化 数据 如 表 7-1 所 示 。 


表 7-1 关键 路 径 转化 数据 表 


事件 行为 总 体 转 换 率 上 一 步 转化 率 
比 牌 规则 结束 OE 天 -二 汉 二 83.42% 
去 游戏 规则 教程 "44007% 95.98% 
加 注 ALLIN 74.96% 93.61% 


表 7-1 中 ， 我 们 按 天 计算 了 用 户 转 化 路 径 中 各 步 的 数据 ， 根 据 转 化 路 径 中 的 每 一 步 动作 ， 计 算 完 成 每 个 动作 的 用 户 数 ， 进 而 计算 用 户 从 进入 到 每 一 步 动 作 的 “总 体 转化 率 ”， 用 的 是 “每 步 动 作 的 用 户 
数 ” 除 以 “进入 的 用 户 数 ”; 而 “上 一 步 的 转化 率 ” 是 用 “当前 动作 的 用 户 数 ” 除 以 “上 一 步 动作 的 用 户 数 ” 计 算得 到 的 。 通 过 这 两 个 转化 率 指标 ， 即 可 看 到 每 一 步 总 体 用 户 的 转化 情况 ， 也 可 以 看 到 从 上 
一 步 过 来 的 用 户 转化 情况 。 


现在 已 经 得 到 了 想 要 的 转化 数据 ， 可 以 利用 Excel 的 绘图 功能 ， 经 过 一 些 简单 的 变化 处 理 ， 就 能 展现 出 一 个 简单 的 转化 漏斗 模型 图 。 首 先 需 要 增加 一 组 数据 进行 占 位 ， 这 组 占 位 数据 是 : (1- 每 一 步 的 总 
体 转化 率 ) +2， 如 表 7-2 所 示 。 


表 7-2 增加 占 位 符 的 关键 路 径 转 化 数据 表 


TYE ET 
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在 得 到 这 组 数据 之 后 就 可 以 绘制 堆积 条 形 图 ， 让 占 位 数据 在 左 侧 ， 总 体 转 化 率 在 右 人 出， 然后 适当 调整 每 个 条 形 之 间 的 间隔 以 及 横 坐 标的 刻度 选项 ， 将 纵 坐 标 做 “逆序 ”放置 ， 隐 藏 横 坐 标 ， 得 到 的 漏斗 
模型 图 如 7-3 所 示 。 


最 后 ， 还 可 以 插入 右 侧 的 箭头 图 形 来 标记 每 一 步 来 源 于 上 一 步 的 转化 率 ， 使 漏斗 图 的 内 容 更 加 丰富 。 结 果 如 图 7-4 所 示 。 


新 手 教 程 关 键 步 又 转化 漏斗 图 
点 击 比 牌 100.00% 


比 牌 规则 结束 83.42% / 
去 游戏 规则 教程 80.07% 
跟 注 80.07% | 


加 注 ALLIN 74.96% 


完成 后 点 击 返回 大 厅 。 71.96% 


图 7-3 ”新 手 教程 漏斗 模型 图 


新 和 于 教 程 关 键 步 蛇 巷 化 独 斗 匈 


反击 比 牌 100.00% | 
/ » 83.42% 
比 牌 规则 结束 83.42% 


95.98% 
去 游戏 规则 教程 80.07% 


U 0 
跟 注 80.07% WON 


加 注 ALLIN T1065 | 93.61% 


” 
Wee 


完成 后 点 击 返回 大 厅 71.96% 20.00% 


图 7-4 ”增加 上 一 步 转化 率 的 漏斗 模型 图 


可 以 从 漏斗 模型 图 得 到 很 多 有 价值 的 信息 。 例 如 ， 从 点 击 比 牌 到 比 牌 规则 结束 的 转化 率 是 83.42%; 从 比 牌 规则 结束 到 去 游戏 规则 教程 的 上 一 步 转化 率 是 95.98%， 到 这 步 的 整体 转化 率 是 80.07%;， 完成 
后 点 击 返回 大 厅 的 总 体 转化 率 为 71.96% 等 。 可 以 根据 步骤 转化 率 对 新 手 教 程 进行 调 优 。 


当然 ， 使 用 R 语 言 也 能 绘制 漏斗 模型 图 ， 但 制作 过 程 比 Excel 相 对 繁琐 。 现 在 使 用 R 语 言 绘制 漏斗 图 。 首 先 ， 将 新 手 教程 关键 路 径 的 用 户 数 导 入 R 中 。 执 行 以 下 代码 。 


# 导入 新 手 教程 关键 路 径 用 户 数 
funnel <- read.csv ("新 手 教 程 路 径 留 存 人 数 统计 .csv", 工 ) 
# 查看 funnel 数 据 集 
funnel 事 件 行为 用 户 数 
点 击 比 牌 567 
比 牌 规 则 结束 473 
去 游戏 规则 教程 454 
跟 注 454 
加 注 ALLIN 425 
完成 后 点 击 返回 大 厅 408 
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为 了 让 生成 的 条 形 从 上 到 下 逐渐 变 短 ， 需 要 将 funne 收 据 集 进行 升序 排序 ， 然 后 利用 barplot 函 数 绘制 漏斗 图 右边 的 条 形 ， 并 设置 add=TRUE 来 加 上 漏斗 图 的 左边 条 形 。 执 行 以 下 代码 得 到 如 图 7-5 所 示 
的 漏斗 模型 图 。 


> # 对 数据 进行 降序 排序 

> funnel order <- funnel [order (funnel$ 用 户 数 )，,] 

> # 绘制 漏斗 图 

> barplot (funnel order$ 用 户 数 ,horiz = T,axes=F,border=F,space=0.5, 
十 

十 

> 

十 


col="steelbluel", xlim=c (-700,700), 
main=" 新 手 教程 关键 路 径 漏 斗 图 ") 

bagfrplot (-funnel order$ 用 户 数 ,horiz=T,add=T, border=F, space=0.5, 
axes=F, COl="steelbluel1") 


新 手 教 程 关键 路 径 泌 斗 图 


图 7-5 ”利用 barplot 肖 数 绘 制 漏斗 图 
然后 ， 利 用 text 函 数 将 每 一 步骤 的 路 径 名 称 、 总 体 的 转化 率 和 上 一 步 的 转化 率 的 信息 在 添加 在 漏斗 图 上 ， 丰 富 漏斗 图 的 内 容 。 执 行 以 下 代码 得 到 的 结果 如 图 7-6 所 示 。 


# 增加 步骤 名 称 

text (x=rep (-600, 6) ,y=seq (1,8.5,1length.out = 6)， 

labels=funnel] order$ 事 件 行为 ，cex=0.8,font=3,col="black") 

# 增加 总 体 的 转化 率 

text (x=rep (0, 6) ,y=seq (1,8.5,1length.out = 6)， 

labels=paste0 (round (funne] order$ 用 户 数 *100/max (funnel order$ 用 户 数 ) ,2),"%")， 
cex=0 .8,font=3,col="violetred3") 

# 增加 上 一 步 的 转化 率 

text (x=rep (max (Eunne1$ 用 户 数 ) ,6) ，y=sed(2,7.5,， Length.out = 5), 
labels=paste0 (foundq( (1-(-qiff(funne15$ 用 户 数 ) /funne1$ 用 户 数 [1:5]))*100,2),"%")， 
cex=0 .8,font=4,col="red3") 
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新 手 教程 关键 路 径 漏 斗 图 
点 击 比 牌 100% 


96% 

比 牌 规则 结束 83.42% 
93.61% 

跟 注 80.07% 
100% 

去 游戏 规则 教程 80.07% 
95.98% 

加 注 ALLIN 74.96% 
83.42% 


完成 后 点 击 返 回 大 厅 71.96% 


图 7-6 利用 text 函 数 丰富 漏斗 图 的 内 容 


有 时 候 ， 我 们 可 以 选取 某 一 段 时 间 的 日 均 转 化 率 作为 数据 对 标 ， 利 用 数据 对 标 来 对 统计 的 路 径 转 化 率 判断 优 务 。 例 如 ， 以 6 月 日 均值 的 新 手 教程 每 步 路 径 转 化 率 为 数据 对 标 ， 对 比 7 月 29 日 当日 的 注册 用 
户 在 新 手 教程 的 留存 情况 。 利 用 Excel 的 绘图 功能 ， 通 过 图 形 多 加 的 方式 即 可 实现 。 实 现 效果 如 图 7-7 所 示 。 

从 图 7-7 可 知 ，7 月 29 日 的 新 手 教程 每 步 转化 率 均 低 于 6 月 的 数据 对 标 ， 此 种 情况 应 该 引起 产品 人 员 的 警惕 。 新 手 教程 是 否 在 7 月 新 版 中 改动 较 大 ， 叶 致 新 用 户 对 教程 的 兴趣 减弱 ， 应 该 对 比 新 旧版 本 ， 总 
结 失败 经 验 ， 在 下 一 个 版 本 中 优化 。 


E 6 月 日 均值 2014-07-29 


点 击 比 牌 

比 牌 规则 结束 

点 击 牌 例 说 明 

坐 下 

去 游戏 规则 教程 

从 荷 官 解释 点 击 下 一 步 
第 一 轮 三 号 玩家 下 注 下 一 步 
跟 注 

看 牌 

加 注 

全 下 

加 注 ALLIN 


完成 后 点 击 返 回 大 厅 


图 7-7 增加 数据 对 标的 漏斗 模型 图 


7.3 ”路 径 分 析 


路 径 分 析 更 加 基础 、 全 面 、 丰 富 ， 更 能 真实 再 现 玩 家 在 游戏 中 的 行为 轨迹 。 可 以 根据 不 同 的 应 用 场景 选择 不 同 的 算法 实现 ， 比 如 利用 sunburst 事 件 路 径 图 识别 玩家 上 典型 的 、 频 繁 的 模式 ， 利 用 基于 时 序 
的 关联 规则 发 现 前 后 路 径 的 关系 。 


7.3.1 路径 分 析 的 主要 应 用 场景 
路 径 分 析 有 以 下 典型 的 应 用 场景 。 


` 识别 玩家 典型 的 、 频 繁 的 路 径 模式 。 通 过 路 径 分 析 ， 可 以 有 效 发 现 用 户 典 型 的 频繁 路 径 模式 (主流 的 路 径 、 典 型 的 路 径 ) ， 这 些 发 现 是 对 游戏 版 本 更 新 迭代 最 基础 、 最 可 靠 的 信息 参考 之 一 。 


* 识别 玩家 行为 特征 。 路 径 本 身 是 指 玩家 在 游戏 中 的 轨迹 ， 轨 迹 背 后 反映 的 是 玩家 的 行为 特征 ， 而 这 些 行为 特征 对 于 游戏 的 运营 


、 管 理 、 客 户 服务 等 诸多 方面 都 有 重要 的 参考 价值 ， 能 够 起 到 借鉴 作 
用 。 


* 作为 游戏 产品 设计 和 优化 的 依据 和 参考 。 路 径 分 析 对 于 游戏 产品 设计 和 优化 的 价值 是 显而易见 的 ， 并 且 是 设计 和 优化 的 基础 和 核心 来 源 。 游 戏 数值 策划 正 是 通过 对 用 户 行为 轨迹 的 观测 和 分 析 ， 来 真 
正 从 源头 上 了 解 和 把 握 玩 家 在 游戏 中 的 实际 情况 。 例 如 ， 发 现 玩家 在 完成 新 手 教程 后 先 推 送 到 棋牌 大 厅 ， 再 由 棋牌 大 厅 进 入 房间 会 造成 部 分 玩家 流失 ， 此 时 可 以 相应 地 改进 策略 ， 壁 如 在 新 玩家 完成 新 手 教 
程 后 ， 直 接 推 送 到 相应 的 房间 玩 牌 ， 减 少 无 谓 流失 。 


监控 游戏 产品 和 运营 的 过 程 。 路 径 分 析 作 为 更 为 广泛 、 更 加 全 面 、 更 加 基础 的 漏斗 模型 ， 可 以 通过 关键 环节 的 转换 率 来 监控 产品 或 运营 指标 。 例 如 ， 不 同时 期 的 留存 转换 率 可 以 用 来 监控 用 户 茜 性 ， 
发 现 异 常用 户 ; 监控 不 同 关卡 的 通过 率 ， 自 动 识 别 通过 率 低 于 预期 的 关卡 ， 运 营 可 重新 调整 关卡 难度 的 数值 。 


7.3.2 ”路 径 分 析 的 主要 算法 


有 多 种 不 同 的 分 析 思 路 和 算法 可 以 实现 路 径 分 析 ， 下 面 介绍 最 常用 的 几 种 分 析 思 路 和 算法 : 最 朴素 的 遍历 法 、 基 于 序列 的 关联 规则 和 社会 网 络 方法 。 


1 旦 林寺 的 启 克 访 证 
1. 最 朴素 的 遍历 方法 


DDN 


之 所 以 称 这 类 方法 最 朴素 ， 是 因为 它 没 有 运用 到 复杂 的 算法 ， 直 接 分 析 主 要 路 径 的 流向 ， 因 此 最 直观 、 最 直接 、 最 容易 让 人 理解 。 根 据 遍历 的 思想 ， 从 新 增 用 户 进入 游戏 的 那 一 刻 开始 ， 把 每 一 个 点 击 
事件 的 流量 大 小 整理 出 来 ， 就 是 一 个 常见 的 、 通 过 典型 的 遍历 方法 进行 的 路 径 分 析 。 


例如 ， 在 德州 规则 小 测试 的 路 径流 程 中 ， 玩 家 提交 测试 后 ， 会 出 现 “ 答 对 了 ”和 “ 答 错 了 ”两 个 路 径 ， 在 “答对 了 ”分 路 径 中 ， 又 有 “马上 玩 牌 ” 和 “关闭 测试 ” (右上 角 叉 按钮 ) 两 种 选择 ， 在 “ 答 
苦 了 ”分 路 径 中 ， 有 “再 做 一 遍 ” “去 看 新 手 教 程 ” 和 “关闭 测试 ”三 种 选择 ， 如 图 7-8 所 示 。 图 7-9 是 用 户 “ 进 入 测试 ”后 的 完整 路 径流 程 图 。 
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图 7-8 “提交 测试 ”后 的 路 径流 向 


统计 “进入 测试 ”后 的 每 个 点 击 事件 的 人 数 ， 可 以 根据 路 径流 程 图 ， 轻 松 利用 Excel 设 计 出 基于 遍历 思想 的 “进入 测试 ”用 户 路 径 与 转化 分 析 。 某 个 小 渠道 在 8 月 1 日 用 户 进入 测试 后 的 人 数 统计 路 径 转 化 
分 析 如 图 7-10 所 示 。 


从 图 7-8 可 知 ， 进 入 测试 的 玩家 中 ， 只 有 44.7% 的 玩家 提交 了 测试 ， 在 提交 测试 的 玩家 中 ， 仅 有 32% 的 人 全 部 答对 ， 说 明 测 试题 目 难 度 偏 大 ， 需 要 在 新 版 本 中 调整 题目 难度 。 在 回答 错误 的 玩家 中 ， 仅 有 
32.6% 玩 家 愿意 去 看 新 手 教程 学 习 德 州 规则 ， 从 侧面 也 反映 了 在 完成 新 手 教程 后 的 奖励 对 玩家 的 吸引 不 够 ， 可 以 加 大 玩家 完成 新 手 教程 的 奖励 。 


四 | 


答对 了 答 错 了 |--------- 


图 7-9” 用户“ 进入 测试 ”路 径流 程 图 


当 用 户 行为 路 径 比 较 复杂 时 ， 以 上 用 Excel 自 己 构建 路 径 图 的 方法 就 显得 力不从心 了 。 此 时 可 以 借助 当前 最 流行 的 数据 可 视 化 D3.js 库 中 的 Sunburst Partition 来 刻画 用 户 群体 的 事件 路 径 点 击 状况 。 从 该 
图 的 圆心 出 发 ， 层 层 向 外 推进 ， 代 表 了 用 户 从 开始 使 用 产品 到 离开 的 整个 行为 统计 。sunburst 事 件 路 径 图 可 以 快速 定位 用 户 的 主流 使 用 路 径 。 提 取 特 定 人 和 群 或 特定 模块 之 间 的 路 径 数 据 ， 并 使 用 sunburst 事 
件 路 径 图 进行 分 析 ， 可 以 定位 到 更 深层 次 的 问题 。 灵 活 使 用 sunburst 路 径 统计 图 ， 是 路 径 分 析 的 一 大 法 宝 。 


进入 测试 有 152 人 
( 总 体 转 化 认为 100% ) 


提交 测试 有 68 人 关闭 测试 有 84 人 
( 总 体 转化 率 为 44.74% ) ( 总 体 转化 率 为 55.26% ) 


提交 测试 中 有 22 人 答对 了 提交 测试 中 有 46 人 答案 错误 
( 占 提交 测试 人 数 的 32.35% ) ( 占 提 区 测试 人 数 的 67.65% ) 


] 
回答 正确 中 有 21 选 择 
“马上 玩 牌 ” 

( 占 答 对 人 数 的 95.45% ) 


回答 错误 中 28 人 选择 回答 错误 中 1$S 人 选择 
“再 做 一 遍 ” “去 看 新 手 教程 ” 
( 占 回 答 错 误 人 数 的 60.87% ) ( 占 回 答 错 误 人 数 的 32.61% ) 


图 7-10 “进入 测试 ”用 户 路 径 分 析 


在 R 中 ， 可 以 利用 sunburstR 包 中 的 Sunburst 函 数 实现 Sunburst 事 件 路 径 图 ， 由 于 该 包 目 前 在 github 上 面 ， 可 以 通过 devtools: : install github ("timelyportfolio/sunburstR") 命令 完成 安装 。 以 
sunburstR 包 中 自 带 的 visit-sequences.csv 数 据 集 为 例 进行 演示 ， 利 用 sunburst 芳 数 绘制 sunburst 事 件 路 径 图 。 结 果 如 图 7-11 所 示 。 


if(!require (SunburstR) ) devtools::install github ("timelyportfolio/sunburstR") 
# 导入 sequences 数 据 

sequences <- read.csv( 

system.file ("examples/visit-sequences.csv",package="sunburstR") 

;header = FALSE 
StringsAsFactors = FALSE 


查看 前 六 行 
ead (sequences) 


YY 十 生起 YY 


呆 直 一 


V1 V2 
1 account-account-account-account-account-account 22781 
2 account-account-account-account-account-end 3311 
3 account-account-account-account-account-home 906 
4 account-account-account-account-account-other 1156 
5 account-account-account-account-account-product 5969 


6 account-account-account-account-account-search 692 
# 绘制 sunburst 事 件 路径 图 


> sunburst (sequences) 


由 于 调用 了 D3.js 库 ， 该 事件 路 径 图 有 很 好 的 交互 效果 。 可 以 选择 某 一 条 路 径 占 比 查看 人 数 ， 如 图 7-12 所 示 。 


图 7-11 绘制 sunbutst 事 件 路 径 图 


Tomei search) product end 3.63% 
和 


图 7-12 ”绘制 sunburst 事 件 路 径 图 


可 见 ， 选 中 某 条 路 径 时 ， 其 他 路 径 颜色 变 暗 ， 圆 圈 中 的 数字 表示 选中 路 径 的 人 数 (或 次 数 ) 在 总 人 数 (或 次 数 ) 的 占 比 。 右 上 角 是 图 例 ， 不 同 颜色 代表 不 同 的 点 击 事件 。 左 上 角 是 选中 的 事件 路 径流 
向 ， 此 时 选中 的 用 户 路 径流 向 是 home-search-product-end， 占 总 人 数 的 3.6%。3.6% 的 计算 过 程 如 下 。 


> # 计算 某 一 路 径 的 占 比 

> # 查看 选中 路 径 的 点 击 次 数 

> (targetclick <- sequences[sequences$V1=="home-search-product-engd", "V2"]) 
[1] 15]5532 

# 统计 所 有 路 径 的 点 击 次 数 

(allclick <- sum(sequencess$V2)) 

[1] 41768062 

> # 计算 目标 路 径 的 占 比 

> Paste0 (round (targetclick/allclick,4)*100,"%") 

[ "3.63%" 


UV 


起 


2. 基 于 序列 的 关联 规则 
基于 序列 的 关联 规则 (sequence analysis) 又 称 序列 分 析 ， 这 种 方法 是 在 关联 规则 分 析 (association analysis) 的 基础 上 ， 进 一 步 考 虑 了 关联 物品 之 间 的 先后 顺序 ， 即 数据 集中 的 每 个 序列 的 条 目 都 是 
, {A, OC}, ， 这 与 <{A，B} 


有 序 排序 的 ， 且 输出 的 结果 也 是 有 序 的 。 例 如 一 个 用 户 在 一 段 时间 内 ， 发 生 了 三 次 交易 ， 第 一 次 购物 为 A 和 B， 第 二 次 购物 为 A 和 和 C， 第 三 次 为 D， 故 该 用 户 的 序列 为 < 人 A，B，{A，C，{D}> 
{DHA，C}> 是 不 同 的 ， 表 示 这 个 完整 的 信息 流 称 为 序列 (sequence) ， 如 序列 <{A，B}，{A，Q，{D}>; 序列 中 最 小 组 成 单位 的 集合 称 为 数据 项 (item) ， 如 { 惟 ，B} 惑 是 一 个 数据 项 ; 用 于 标识 同一 个 序列 


内 不 同 数据 项 之 间 的 前 后 顺序 关系 称 为 事件 (event) ， 通 常用 时 间 戳 来 表示 。 
基于 序列 的 关联 规则 常用 的 算法 为 由 zaki 提 出 的 可 以 使 用 各 种 约束 限制 的 cSPADE 算 法 。 在 R 中 ， 可 以 使 用 arulesSequences 包 中 的 核心 函数 cspade 实 现 。 其 基本 表达 式 为 


cspade (data, parameter = NULL, control = NULL, tmpdir = tempdir()) 


其 中 ，data 是 事务 型 数据 ，parameter 用 于 设置 各 类 约束 限制 。cspade 函 数 的 参数 parameter 说 明 如 表 7-3 所 示 。 


表 7-3 cspade 函 数 的 patametet 参 数 说 明 


>| 


maxsize 
maxgap 
mingap 


maxwin 


说 明 
文 持 度 国 值 (最 小 值 );， 取 值 范围 是 [0,1] ， 默 认 值 为 0.1 
返回 的 结果 序列 中 包含 数据 项 的 最 大 数 ， 默 认 值 为 10 
返回 结果 序列 的 数据 项 中 包含 商品 的 最 大 数 ， 默 认 值 为 10 
同一 序列 内 前 后 事件 (event) 间隔 的 最 大 值 
同一 序列 内 前 后 事件 间隔 的 最 小 值 
同一 序列 内 任意 事件 间隔 的 最 大 值 


对 于 序列 分 析 ， 因 为 考虑 了 事物 关联 关系 的 先后 顺序 ， 所 以 与 游戏 中 的 玩家 点 击 事件 的 先后 顺序 分 析 有 很 大 的 相似 性 ， 可 以 加 以 借鉴 ， 它 也 成 为 游戏 路 径 分 析 中 的 一 种 重要 分 析 方 法 。 


3. 社 会 网 络 方法 


社会 网 络 分 析 (social network analysis) 作为 一 个 单独 的 分 析 领 域 ， 目 前 已 经 得 到 了 快速 的 帮 展 。 其 初衷 是 研究 社会 实体 ， 即 组 织 中 的 人 以 及 他 们 之 间 的 活动 和 关系 ， 这 种 网 络 关系 可 以 用 图 来 表 


， 如 图 7-13 所 示 。 其 中 ， 每 个 节点 (小 圆圈 ) 表示 一 个 参与 者 ， 每 条 线 的 链接 表示 两 个 参与 者 之 间 的 关系 ， 线 的 粗细 表示 参与 者 之 间 关 系 的 强 弱 。 


图 7-13 ”社会 网 络 关 系 图 


在 游戏 里 ， 社 会 网 络 图 分 析 有 极其 重要 的 作用 ， 如 游戏 内 社区 系统 分 析 、 玩 家 与 玩家 之 间 的 交易 分 析 以 及 玩家 不 同 点 击 事件 关系 分 析 等 。 


R 语 言 中 的 igraph 包 是 处 理 复杂 网 络 的 分 析 包 ， 将 人 在 第 9 章 详细 介绍 其 用 法 。 
7.3.3 ”分析 案 例 : 游戏 点 击 事件 路 径 分 析 


1. 数 据 准备 


玩家 从 进入 游戏 到 玩 牌 的 点 击 路 径 是 : 欢迎 界面 操作 一 大 厅 界 面 点 击 操作 一 进入 房间 玩 牌 ， 如 图 7-14 所 示 。 


欢迎 界面 大 厅 缠 面 进入 房间 
点 击 操作 点 击 操作 玩 牌 


图 7-14 ”玩家 从 进入 游戏 到 玩 牌 的 路 径流 向 


进入 欢迎 界面 有 : “学 习 新 手 教程 “规则 小 测试 ” “关闭 欢迎 界面 ”三 个 选择 。 前 面 已 经 介绍 了 “学 习 新 手 教程 和 “规则 小 测试 ”的 点 击 事件 。 接 着 进入 游戏 大 厅 界 面 ， 大 厅 界 面 点 击 操作 主要 包 
括 : “个 人 信息 ” “房间 列表 ”“ 好 友 列 表 ”“halltool” 四 大 板块 ， 各 个 版 块 的 主要 功能 点 按钮 如 下 。 


“ 个 人 信息 : 头像 、 签 到 、 信 息 向 上 按钮 、 信 息 向 下 按钮 、 打 开 详 情 、 保 险 箱 、 打 开 系 统 通知 、 商 城 、VIP。 

- 房间 列表 : 游戏 场 、 比 赛场 、 淘 汰 赛 、 淘 金 赛 、 锦 标 赛 、 新 手 场 、 初 级 场 、 中 级 场 、 高 级 场 、 快 速 场 。 

. 好 友 列 表 : 好 友 、 动 态 、 房 间 。 

. halltool: 点 击 快速 游戏 、 点 击 进入 房间 、 点 击 更 新 按钮 、 点 击 帮 助 按钮 。 

data_click.csv 数 据 收 录 了 5000 位 玩家 在 某 一 天 的 点 击 事件 数据 ， 希 望 通过 研究 发 现 哪些 点 击 事件 是 引导 玩家 触发 开始 玩 牌 的 重要 按钮 ， 及 其 引导 和 能力 问题 。 数 据 格 式 如 表 7-4 所 示 。 
第 一 列 是 用 户 id， 第 二 列 是 事件 event， 用 于 标识 同一 个 玩家 不 同 点 击 事件 数据 之 间 的 前 后 顺序 关系 。 第 三 列 是 各 个 点 击 事件 的 id， 其 中 11034 是 开始 玩 牌 事件 的 id。 


表 7-4 data_click 数 据 示 例 


S000 
S000 
S000 


Be 


2. 利 用 时 序 关 联 规则 对 点 击 事件 进行 路 径 分 析 


理解 点 击 行为 数据 后 ， 接 下 来 把 data_click 数 据 导入 R 语 言 中 ， 并 通过 head 函 数 查 看 前 六 行 。 


1 1008 
11001 
1 1034 
11002 
11017y 
1]112% 
10034 
11004 


> data click <- read.csv("data click.csv",header=F) # 导入 点 击 事件 数据 
> head (data click) 上 查看 前 六 行 
V1 V2 V3 
1 1 111008 
2 1 2 11001 
3 1 3 11034 
4 1 4 11002 
5 2 1 11017 
6 2 2 11004 
因为 要 寻找 哪些 点 击 事件 会 触发 玩家 的 开始 玩 牌 按 钮 及 其 贡献 度 和 人 能力， 所 以 下 面 先 筛选 出 5000 位 玩家 中 有 触发 开始 玩 牌 “11034” 按 钮 的 用 户 数 据 。 


# 提取 有 过 11034 点 击 行为 的 用 户 数据 
targetuserid <- unique (data click[data ClLicKkSV3=="11034"，"V1L"] ) 
data click new <- data click[data clicks$V1 %in% targetuserid,] 


接 下 来 ， 将 arulesSequences 包 加 载 到 R 中 ， 并 将 data_click_new 数 据 转换 成 cspade 函 数 可 用 的 事务 型 数据 data_click_tran。 


> library (arulesSequences ) 


> 
> 


tmp da 


ta <- data.frame (click=data click newSV3) 


tmp da 


ta$click <- as.factor (tmp data$click) 


> data click tran <- as (tmp qata 'transactions') 


ick tran) $sequencel] 
iCk 


> transactionInfo (da 

> transactionInfo (da 

> data click tran 

transactions in sparse 
24338 transactions (rows) 
250 items (columns) 


ta cl 
ta cl 


tran) $event] 


format with 
and 


[D <- data click newSV1 
[D<-data ， click .new$V2 


可 见 ，data_click tran 已 经 是 事务 型 数据 ， 可 以 通 


> Summary (data click tran) 
transactions as itemMatrix in sparse 


format with 


过 summary 函 数 查看 更 详细 的 信息 。 


24338 rows (elements/itemsets/transactions) and 
250 columns (items) and a density of 0.004 
most frequent items: 
click=11034 click=11008. click=11017 click=11004 click=11018 (Other) 
4806 3319 1371 1321 1194 2 2. /0 


第 一 部 分 中 的 24338 是 行 数 ，250 是 列 数 ， 是 指点 击 事件 按钮 ， 


钮 ， 占 总 玩家 的 96.12% (4806/5000) 。 


可 以 通过 inspect 函 数 查 看 稀 朴 矩阵 的 内 容 ， 或 者 通过 


> 砷 查看 事务 型 数据 的 前 六 行 


> inspect (data click tran[1:6]) 
items transactionID sequenceID eventID 

1 {click=11008} 1 1 1 
2 {click=11001} 2 1 2 
3 {cliek=11034} 3 1 3 
4 {click=11002} 4 1 4 
5 {click=11017} 5 2 1 
6 {click=11004} 6 2 2 


as 函数 先 转换 成 数据 框 再 查看 。 前 六 条 


密度 (density) 值 0.004 是 指 非 零 矩 阵 单元 的 比例 ;第 二 部 分 列 出 了 事务 型 数据 中 最 常 


点 击 数据 如 下 。 


# 或 者 head ( (as (data click tran,"data.frame")) 


党 点击 的 按钮 ， 共 有 4806 位 玩家 点 击 了 开始 玩 牌 按 


itemFrequencyPlot 函 数 可 以 生成 一 个 用 于 描绘 所 包含 的 特定 商品 的 交易 比例 的 柱状 图 ， 可 以 通 
结果 如 图 7-15 所 示 。 


如 ， 想 绘制 支持 度 前 20 的 点 击 事件 的 柱状 图 ， 执 行 以 下 代码 得 到 的 


# 绘制 商品 的 频率 图 
itemFrequencyPlot (data click tran, topN=20) 


过 support 参 数 设 置 最 小 的 支持 度 ， 或 者 通 


过 topN 参 数 提取 支持 度 由 大 到 小 排序 后 的 前 N 个 商品 。 例 


中 
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图 7-15 ”前 20 点 击 事件 频率 图 


利用 arulessquences 包 中 的 cspade 辑 数 实现 CS9PADE 算 法 。 由 于 要 找 出 所 有 到 达 开 


项 数 最 大 为 2， 所 以 maxlen 设 置 为 2。 


> myrules <- 


+ Control=list (verbose=TRUE)) 
parameter specification: 
support : 0 

maxsize : 10 

maxlen : 2 

algorit Ehmic Control 

bfstype : FALSE 

verbose TRUE 

summary FALSE 

tidLists : FALSE 


cspade (data click tran,parameter=1list (support=0,maxlen=2), 


preprocessing http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/1640 


mining transac 


tions http://www.hzcourse.com/resource/read 


reading sequences http://www.hzcourse.com/resource/read] 


total elapsed time: 1.14s 


然后 使 用 sort 函 数 将 myrules 按 照 支 持 度 的 数值 进行 降序 排序 ， 


并 设置 规则 表达 式 ， 筛 选 出 序列 中 最 后 


Book?path=/openresources/teach ebook/uncompressed/] 


Book?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 


一 个 数据 项 为 {click=11034} 的 序列 。 


始 打牌 的 路 径 ， 所 以 将 支持 度 阅 值 support 设 置 为 0%， 且 和 欲 返 回 点 击 开 始 打牌 和 前 一 次 的 点 击 事件 ， 即 返回 序列 的 数据 


1/OEBPS/Text/... 1 partition(s), 0.56 M 
0.16 MB [0.2s] 
6401/O0EBPS/Text/... [0.82s] 


B [0.12s] 


> myrules <- sort (myrules,by="support") 


# 按照 support 进 行 排序 
> targetclick <- paste0(".*cljick=11034","[ 人 ^ 八 \}]*\\}>") 井 设置 规则 表达 


大 


> finalrules <-myrules [grep (targetclick ,as (myrules,"data.frame") $sequence)] 
> inspect (finalrules[1:3]); # 查看 序列 的 前 三 条 
items support 
1 <{click=11034}> 1.0000000 
2 <{click=11008}, 
{click=11034}> 0.6791511 
3 <{click=11017}, 
{click=11034}> 0.2769455 
> nrow (finalrules) # 计算 序列 个 数 
[1] 235 


其 中 序列 1 为 <{click=1103 介 > 没有 实际 的 业务 意义 ， 之 后 的 234 个 序列 是 我 们 希望 得 到 的 时 间 序 列 <{click= 站 ，{click=1103 负 > 的 信息 。 例 如 ， 序 列 2 中 的 <{click=11008}，{click=1103 浊 > 表示 点 击 行 


为 顺序 是 11008 一 11034， 支 持 度 为 0.679。 


最 后 ， 筛 选 关 键 点 击 按钮 ， 衡 量 其 对 11034 的 贡献 度 。 首 先 计算 各 点 击 事件 支持 度 的 百分比 ， 使 用 cumsum () 函数 计算 支持 度 support 的 累计 百分比 ， 并 把 累计 百分比 达到 75% 以 上 的 点 击 事件 作为 引 
导 用 户 点 击 玩 牌 11034 的 重要 事件 触发 点 。 


> # 转 换 成 数据 框 

> finalrules.data.frame <- as (finalrules[-1],"data.frame") 

> # 查看 前 三 行 数据 

> head (finalrules.data.frame) 

sequence support 

5789 <{click=11008}, {click=11034}> 0.6791511 

5798 <{click=11017}, {click=11034}> 0.2769455 

5790 <{click=11009}, {click=11034}> 0.1874740 

5807 <{click=11026}, {click=11034}> 0.1593841 
0 
0 


5782 <{click=11001}, {click=11034}> 0.1375364 
5785 <{click=11004}, {click=11034}> 0.1342072 
# 计算 支持 度 的 占 比 
finalrules.data.frame$percentage <- finalrules.data.frame$support/ 
sum(finalrules.data.frame$support) 

# 计算 支持 度 的 累计 百分比 
finalrules.data.frame$sum.percentage <- cumsum (finalrules.dqata.frameSpercentage) 
# 筛选 累计 百分比 小 于 75g% 的 序列 数据 

finalrules.data.frame <- finalrules.data.framel 
finalrules.data.frame$sum.percentage <=0.75,1] 

# 查看 符合 结果 的 序列 个 数 

nrow (finalrules.data.frame) 


VV+VvVvVvvv+VvVyYV 


> # 查看 前 六 行 数据 
> head (finalrules.data.frame) 
sequence support percentage sum.percentage 
5789 <{click=11008}, {click=11034}> 0.6791511 0.19456366 0.1945637 
5798 <{click=11017}, {click=11034}> 0.2769455 0.07933953 0.2739032 
5790 <{click=11009}, {click=11034}> 0.1874740 0.05370768 0.3276109 
5807 <{click=11026}, {click=11034}> 0.1593841 0.04566047 0Q3732713 
0 0 0 
0 0 0 


5782 <{click=11001}, {click=11034}> 0.1375364 0.03940153 .4126729 
5785 <{click=11004}, {click=11034}> 0.1342072 0.03844778 .4511206 


finalrules.data.frame 包 含 了 点 击 路 径 的 序列 信息 (sequence) 、 支 持 度 (support) 、 支 持 度 占 比 (percentage) 以 及 支持 度 的 累计 百分比 (sum.percentage) 。 前 24 条 支持 度 最 大 的 序列 的 累计 
占 比 达到 74.8%， 最 后 ， 利 用 文本 处 理 函 数 提取 关键 点 击 按钮 事件 jd， 并 计算 关键 点 击 按钮 的 引导 和 能力 conf (conf (i=>11034) = 按钮 引导 玩家 进入 点 击 玩 牌 按钮 11034 的 次 数 /按钮 的 点 击 次 数 ) ， 用 于 
衡量 按钮 i 引导 玩家 进入 点 击 玩 牌 11034 的 能 力 。 最 后 结合 支持 度 的 占 比 组 合成 新 的 数据 框 result。 


提取 关键 点 击 按 钮 的 事件 id 

lickid <- substr (finalrules.data.frame$sequence, 9,13) 

查看 关键 事件 id 

lickid 

"110087 TILOLY™ "11009" "11026" "11001 1 "110047 "T11018" "T11003" "11041 1 
"110257 "110467 vw 1035™ vwI1O32™ "11038" "110407 v1LOS7™ "110587 "110707 
] "110307 "110077 "110457 "110007 "110207 T11027" 

计算 关键 点 击 按钮 i 的 引导 能 力 conf 
onf <- rep (l,length (clickid)) 

or(i in 1l:length (clickid)) { 

+ n <- myrules@info$nsequences 

+ nclickid support <- finalrules.data.frame[i,"support"] 
+ conf[i] <- nclickid support*n/ 

+ nrow(data click[data click$V3==clickid[i],]) 

4 


> 
> # 将 关键 事件 id 和 支持 度 占 比 组 成 新 数据 框 result 
> result <- data.frame (click=clickid, 

percentage=round (finalrules.data.frame$percentage, 3), 
本 conf=conf) 
> # 查看 前 六 行 
> head (result) 


h OQ 站 WOPO 半 Q# 


click percentage Conf 
1 11008 0:195: 0.9417196 
2 11017 0.079 0.8999324 
3 11009 0.054 0.897410 
4 11026 0.046 0.8344227 
5 1100] 0.039 0.8507079 
6 11004 0.038 0.4523142 


对 于 result 数 据 集 ， 利 用 reshape 包 的 melt 函 数 对 其 进行 重组 ， 并 将 其 进行 数据 转换 。 利 用 recharts 包 的 echartr 函 数 绘制 垂直 的 金字 塔 图 。 结 果 如 图 7-16 所 示 。 


# 绘制 支持 度 占 比 的 重 直 人 金字塔 图 

Jibrary (reshape) 

md <- melt (result,id="click") # 对 result 数 据 进 行 重组 

md$value [md$variable == "conf"] <- -md$value [md$variable == "conf"] 

md <- md[order (md$variable, decreasing=T),] # 按照 variable 变 量 进行 降序 排序 
# 绘制 重 直 金字 塔 图 

library (recharts) 

echartr (md, click,value,variable,type="vbar", subtype="stack") %>% 


VVVvVVvVvvVvVvyYV 


+ setTitle ("引导 用 户 进 入 开始 打牌 11034 的 重点 事件 id 分 析 ") %>% 
十 setXAxis (axisLine=]list (onZero=TRUE)) %>% 
十 setYAxis (axisLabel=1ist\( 


formatter=JS('function (value) {return Math.abs (value);}'))) 


国 percentage 国 conf 4 口上 品目 ? 贡 狼 去 乡 国 


1| | | | | | | | | | | | | 
11008 11009 11001 11018 11041 11046 11032 11040 11058 11030 11045 11020 


引导 用 户 进入 开始 打牌 11034 的 重点 事件 id 分 析 


图 7-16 关键 引导 按钮 分 析 图 


图 7-16 具 有 很 好 的 交互 效果 ， 可 以 点 击 左上 角 的 图 例 隐藏 或 显示 某 一 类 别 的 数据 ， 点 击 右 上 角 的 区 域 缩放 按钮 详细 查看 某 一 区 域 。 比 如 想 单 独 查看 percentage 的 柱状 图 ， 点 击 conf 隐 藏 此 类 别 数据 即 
可 ， 如 图 7-17 所 示 。 


主要 结论 : 11008 是 为 按钮 11034 的 点 击 贡献 最 大 的 引流 按钮 ，support 占 比 为 19.5%， 接 近 全 部 引流 按钮 的 五 分 之 一 ; 其 次 是 11017、11009 等 ， 占 比分 别 为 7.9% 和 5.4%。 而 在 引导 能 力 上 ， 按 钮 
11004、11018 不 足 509%， 鉴 于 这 两 个 引流 按钮 对 11034 的 点 击 贡献 度 较 大 ， 但 引流 能 力 较 低 ， 因 此 要 重点 优化 该 页 面 。 


四 percentage a conf 四 才 访 门 提 目 以 二 中 三 允 图 
value 
0.2 


0.15 
0.1 
0.05 
. click 
11008 11017 11009 11026 11001 11004 11018 11003 11041 11025 11046 
引导 用 户 进 入 开始 打牌 11034 的 重点 事件 id 分 析 
图 7-17 支持 度 占 比 (percentage) 柱状 图 
7.4 小 结 


本 章 首先 介绍 了 单 路 径 分 析 的 漏斗 模型 的 制作 ， 然 后 介绍 了 路 径 分 析 的 主要 算法 原理 及 如 何 通 过 R 来 实现 ， 最 后 通过 实际 案例 演示 了 如 何 利 用 基于 时 序 的 关联 规则 ， 研 究 推送 玩家 点 击 开 始 玩 牌 的 主要 按 
钮 的 贡献 度 。 


第 8 草 ”留存 分 析 


在 移动 游戏 中 ， 用 户 在 某 段 时 间 内 开始 登录 游戏 ， 经 过 一 段 时 间 后 ， 仍 然 继续 登 录 游 戏 的 用 户 ， 被 认为 是 留存 用 户 。 这 部 分 用 户 占 当时 新 增 用 户 的 比例 即 是 留存 率 ， 会 按照 一 段 单位 时 间 (如 日 、 周 、 
月 ) 来 统计 。 顾 名 思 义 ， 留 存 就 是 指 “ 有 多 少 用 户 留 下 来 了 ”。 留存 用 户 和 留存 率 体 现 了 游戏 的 质量 和 保留 用 户 的 能 力 。 留 存 率 从 一 定 意义 上 代表 了 新 登 用 户 对 游戏 的 满意 度 ， 关 注 留 存 率 的 同时 需要 关注 
用 户 流失 节点 。 流 失 率 人 在 游戏 进入 稳定 期 是 值得 关注 的 ， 稳 定期 的 活跃 和 收入 都 比较 理想 ， 如 果 流 失 率 波动 较 大 ， 就 需要 引起 警惕。 需要 仔细 关注 是 哪 一 部 分 用 户 离 开 了 游戏 ， 流 失 率 作为 一 个 风向 标 ， 具 
有 预警 作用 。 


8.1 ”指标 概述 


留存 分 析 是 指 在 统计 时 间 区 间 内 ， 新 登 用 户 在 随后 不 同时 期 的 登录 情况 。 游 戏 留 存 率 已 经 成 为 从 业者 关注 的 重要 指标 ， 无 论 是 对 推广 效果 分 析 ， 还 是 对 产品 质量 把 控 ， 留 存 率 都 扮演 着 非常 重要 的 角 
色 。 在 关注 留存 率 的 同时 ， 也 要 关心 流失 率 的 分 析 。 留 存 率 更 加 关心 的 是 从 用 户 获取 的 角度 综合 分 析 获 取 用 户 的 渠道 方式 是 否 合 理 ， 产 品 用 户 规模 能 否 增 长 。 而 流失 率 则 关心 为 什么 有 些 用 户 离开 游戏 ,是 
渠道 用 户 质量 问题 ， 还 是 版 本 更 新 导致 用 户 流失 。 


8.1.1 用 户 留 存 
留存 率 的 计算 可 以 按照 统计 的 时 间 区 间 来 划 定 ， 但 新 增 当日 是 不 计 入 计算 的 ， 也 就 是 说 我 们 提 到 的 留存 用 户 ， 指 的 是 新 增 用 户 新 增 后 的 第 N 日 留存 。 下 面 是 新 增 用 户 的 次 日 留存 率 、7 日 留存 率 、14 日 留 


存 率 以 及 30 日 留存 率 的 定义 。 


` 次 日 留存 率 : 统计 所 选 时 期 内 ， 当 日 成 功 登 录 游 戏 的 新 增 用 户 中 ， 第 二 日 再 次 登录 游戏 的 用 户 数量 占 当 日 游戏 新 增 用 户 数 量 的 比例 。 次 日 留存 率 可 用 于 评估 其 首次 用 户 体 验 ， 即 它 对 用 户 的 吸引 力 如 


何 ， 外 观 和 玩法 带 给 玩家 怎样 的 第 一 印象 。 


“7 日 留存 率 : 统计 所 选 时 期 内 ， 当 日 成 功 登 录 游戏 的 新 增 用 户 中 ， 往 后 推 第 7 日 (当日 不 计 入 天 数 ) ， 登 录 游 戏 的 用 户 数量 占 当 日 游戏 新 增 用 户 数 量 的 比例 。 


“14 日 留存 率 : 统计 所 选 时 期 内 ， 当 日 成 功 登 录 游戏 的 新 增 用 户 中 ， 往 后 推 第 14 日 (当日 不 计 入 天 数 ) ， 登 录 游戏 的 用 户 数量 占 当日 游戏 新 增 用 户 数 量 的 比例 。 


“30 日 留存 率 : 统计 所 选 时 期 内 ， 当 日 成 功 登 录 游戏 的 新 增 用 户 中 ， 往 后 推 第 30 日 (当日 不 计 入 天 数 ) ， 登 录 游戏 的 用 户 数量 占 当日 游戏 新 增 用 户 数 量 的 比例 。 


图 8-1 是 6 月 新 增 用 户 的 次 留 、7 留 、14 留 、30 留 的 曲线 图 。 
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图 8-1 不 同时 间 点 的 留存 率 曲 线 图 


通过 分 析 留 存 率 ， 可 以 解决 以 下 问题 。 


: 用 户 对 游戏 的 适应 性 如 何 ; 


- 评估 渠道 用 户 质量 ; 


. 评估 投放 渠道 效果 ; 


. 用 户 对 于 游戏 的 籍 性 如 何 ; 


- 新 增 用 户 什么 时 期 流失 加 剧 。 


统计 某 一 天 新 增 用 户 在 接 下 来 10 天 的 留存 率 ， 绘 制 留 存 漏斗 ， 如 图 8-2 所 示 。 


从 图 8-2 中 的 留存 漏斗 可 知 ， 次 日 留存 率 仅 有 30%， 第 4 日 留存 率 就 不 足 10% 了 ， 到 第 7 日 仅 有 6% 的 玩家 回来 游戏 。 运 营 需 从 以 下 方面 研究 造成 玩家 前 期 未 留存 的 原因 ， 对 游戏 进行 优化 ， 提 高 前 期 留 
存 。 


是 否 美 术 / 玩 法 不 喜欢 ， 造 成 一 次 登录 玩家 人 数 高 。 


" 是 否 新 手 引 导 设 计 不 合理 ， 造 成 新 手 引 导 各 环节 转化 率 低 。 


2016-07-01 留 存 漏斗 @ 必 画 四 2016-07-01 留 存 漏斗 
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图 8-2 ”新 增 用 户 留存 漏斗 


. 次 月 留存 用 户 ; 统计 所 选 时 期 内 ， 每 自然 月 成 功 登 录 游戏 的 新 增 用 户 中 ， 第 二 月 再 次 登录 游戏 的 用 户 数 量 。 
. 次 月 留存 率 ; 统计 所 选 时 期 内 ， 每 自然 月 成 功 登 录 游戏 的 新 增 用 户 中 ， 第 二 月 再 次 登录 游戏 的 用 户 数 量 占 当月 游戏 新 增 用 户 数 量 的 比例 。 
. 次 次 月 留存 用 户 : 统计 所 选 时 期 内 ， 每 自然 月 成 功 登录 游戏 的 新 增 用 户 中 ， 第 三 月 再 次 登录 游戏 的 用 户 数 量 。 

. 次 次 月 留存 率 : 统计 所 选 时 期 内 ， 每 自然 月 成 功 登录 游戏 的 新 增 用 户 中 ， 第 三 月 再 次 登录 游戏 的 用 户 数量 占 当 月 游戏 新 增 用 户 数 量 的 比例 。 


图 8-3 是 某 款 游 戏 近 半年 的 次 月 留存 率 、 次 次 月 留存 率 曲线 图 。 
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图 8-3 自然 月 留存 率 曲线 图 


8.1.2 流失 分 析 


2016-03 


用 户 流 失 指 的 是 在 统计 时 间 区 间 内 ， 用 户 在 不 同时 期 离开 游戏 的 情况 。 从 宏观 上 讲 ， 流 失 分 析 主 要 是 围绕 几 个 流失 率 指标 进行 的 。 关 于 游戏 用 户 的 流失 ， 普 遍 的 衡量 指标 有 周 流失 与 月 流失 。 


“ 周 流失 率 : 上 周 登 录 过 游戏 , 但 本 周 未 登录 游戏 的 用 户 占 上 周 周 活跃 用 户 的 比例 。 
` 月 流失 率 : 上 个 月 登录 过 游戏 ,但 本 月 未 登录 过 游戏 的 用 户 占 上 个 月 月 活路 用户 的 比例 。 


流失 分 析 其 实 是 一 个 系列 的 过 程 ， 不 仅仅 是 找到 流失 的 原因 (这 是 我 们 做 得 最 多 的 部 分 ) ， 还 有 其 他 的 流失 管理 部 分 ,流失 分 析 的 流程 图 如 图 8-4 所 示 。 


流失 特征 ”流失 原因 ”拘留 集 略 拘留 集 略 
选择 分 析 制定 与 实施 ” 效果 评 信 


1. 流 失 特 征 选 择 


准确 地 说 这 是 提取 玩家 流失 的 特征 ， 哪 些 玩家 有 流失 的 倾向 ， 比 如 玩家 处 在 何等 级 可 能 流失 加 剧 ， 在 线 时 长 达到 多 少 可 能 会 有 游戏 疲倦 加 剧 流失 ， 与 哪 部 分 系统 交互 较 多 的 玩家 易 流失 ， 哪 个 角色 的 玩 
家 群体 流失 倾向 明显 。 这 个 阶段 我 们 做 的 大 多 是 一 种 预警 性 质 的 工作 ， 通 过 对 数据 处 理 分 析 得 到 玩家 可 能 流失 的 特征 。 


2. 流 失 原因 分 析 


分 析 流 失 的 原因 ， 首 先 要 从 前 期 提取 特征 的 方面 分 析 ， 先 把 提取 的 流失 特征 进行 整合 分 析 ， 归 结 是 否 是 玩家 流失 的 原因 。 如 果 流 失 原 因 不 是 我 们 前 期 提取 的 预警 流失 的 特征 ， 且 玩家 依旧 流失 ， 就 需要 
找到 新 的 流失 因素 ， 并 把 这 些 因素 归 结 到 流失 特征 提取 环节 ， 这 样 流失 特征 会 积 朱 大 量 的 流失 预警 的 提取 数据 点 。 


3. 挽 留 策略 制定 与 实施 


其 实 挽留 策略 在 流失 特征 提取 时 就 已 经 制定 了 ， 在 玩家 非 流失 阶段 就 做 好 流失 的 预防 措施 是 防 流失 最 好 的 办 法 ， 如 果 已 经 发 生 流 失 了 ， 从 某 种 意义 上 说 是 我 们 制定 的 策略 效果 不 佳 或 者 未 考虑 的 因素 促 
使 流失 上 升 ， 挽 留 策 略 是 提升 人 气 ， 降 低 流 失 的 关键 之 举 。 但 是 不 意味 着 好 的 策略 就 一 定 会 有 好 的 结果 。 挽 留 策略 制定 好 了 ， 还 需要 整个 运营 团队 、 和 营销 团队 、 程 序 、 策 划 的 共同 配合 执行 和 实施 ， 才 能 达 
到 良好 的 效果 ， 而 这 也 不 是 绝对 的 ， 往 往 会 受制 于 某 些 因素 的 影响 ， 如 实施 难度 、 排 期 等 。 


4. 挽 留 策略 效果 评 佑 


与 做 一 个 活动 相同 ， 这 里 也 需要 有 针对 性 地 进行 评估 和 分 析 ， 从 而 不 断 修正 我 们 的 策略 ， 不 断 适 应 游戏 玩家 和 产品 的 发 展 需求 。 


8.2 ”留存 率 的 分 析 及 预测 
留存 率 是 转化 率 的 一 种 ， 是 研究 新 增 用 户 在 未 来 一 段 时 间 的 生命 周期 情况 ， 因 此 可 以 利用 留存 率 数据 得 到 用 户 生 命 周期 LT 值 ， 帮 助 了 解 游戏 的 黏 性 和 质量 情况 。 
8.2.1 留存 率 曲线 


留存 率 是 转化 率 的 一 种 ， 即 由 初期 的 不 稳定 用 户 转化 为 活跃 用 户 、 稳 定 用 户 、 忠 诚 用 户 的 过 程 ， 随 着 留存 率 统计 过 程 的 不 断 延 展 ， 能 看 到 不 同时 期 的 用 户 变 化 情况 。 这 是 因为 留存 是 以 研究 新 登 用 户 为 
目标 对 象 的 ， 即 我 们 研究 某 一 天 的 一 批 用 户 在 随后 的 一 段 时 间 内 的 生命 周期 情况 ， 这 样 可 以 从 宏观 上 把 握 用 户 的 生命 周期 长 度 以 及 可 以 改善 的 余地 。 

因此 这 里 就 引申 出 一 个 问题 : 我 们 为 什么 要 研究 的 是 新 登 用 户 ? 如 刚才 所 说 的 ， 宏 观 观 察 用户 生 命 进程 情况 的 最 佳 办 法 就 是 从 用 户 导入 期 开始 。 在 导入 期 ， 用 户 刚 刚 进入 游戏 ， 这 个 地 方 的 分 析 其 实 大 
有 作为 ， 因 为 进入 游戏 的 用 户 来 源 于 不 同 的 渠道 ， 通 过 不 同 的 营销 手段 拉 入 游戏 ， 这 样 交 义 分 析 ， 通 过 用 户 的 后 期 留存 情况 就 能 从 一 个 层面 把 握 渠 道 质量 ， 如 付费 、 黏 性 、 价 值 量 、CAC 成 本 。 

2016 年 7 月 1 日 新 增 用 户 在 随后 30 天 的 留存 率 变化 情况 如 图 8-5 所 示 。 
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图 8-5 ”新 增 用 户 随后 30 天 的 留存 率 走势 图 


图 8-5 是 跟踪 了 7 月 1 日 新 增 用 户 在 随后 30 天 的 数据 ， 我 们 发 现 留存 率 的 初期 震荡 比较 厉害 ， 但 是 随后 开始 逐步 趋 于 平稳 ， 下 一 个 时 期 就 开始 逐渐 稳定 ， 保 持 在 一 个 水 平 上 ， 如 果 持 续 观 察 下 去 ， 随 后 开 
台 逐 渐 衰 退 ， 并 最 终 无 限 趋 于 0。 


一 般 来 说 留存 率 这 类 指标 是 需要 长 期 持续 跟踪 的 ， 且 要 结合 版 本 更 新 、 推 广 等 诸多 因素 来 分 析 ， 试 图 找到 玩家 的 最 佳 周 期 ， 制 定 相应 的 策略 提升 质量 。 


8.2.2 ”留存 率 预测 曲 续 


在 游戏 数据 分 析 中 ， 经 常会 遇 到 的 一 个 名 词 就 是 “生命 周期 ” (life time，LT) ， 这 个 指标 指 的 是 玩家 从 第 一 次 登录 游戏 到 最 后 一 次 登录 游戏 过 程 中 活跃 的 天 数 ， 即 不 同 玩家 在 新 增 首 日 随后 日 期 的 留 
存 率 之 和 ， 这 种 定义 可 以 快速 找到 玩家 的 生命 周期 长 度 。 利 用 生命 周期 可 以 帮助 我 们 发 现 游戏 的 和 儿 性 和 质量 情况 。 


在 市 场 投放 时 ， 需 要 预测 新 增 玩家 在 给 定 的 自然 时 间 内 的 生命 周期 ， 即 预测 玩家 在 未 来 时 间 里 的 留存 率 。 这 样 可 以 根据 玩家 生命 周期 ， 结 合 玩家 的 价值 指标 ARPU， 得 到 用 户 生命 周期 价值 ， 对 比 投放 
成 本 与 用 户 生 命 周 期 价值 可 以 估算 出 回 本 周期 和 预期 收益 。 


可 见 ， 根 据 前 期 已 经 留存 这 对 给 定 自然 时 间 内 的 留存 率 进 行 预 测 是 问题 的 关键 。 我 们 已 经 知道 ， 一 批 新 增 玩家 的 留存 率 随 自然 时 间 的 增长 必然 无 限 趋 近 于 0， 用 几何 图 形 表示 就 是 一 条 只 减 的 指数 曲线 ， 
如 图 8-6 所 示 。 


留存 率 预 测 曲 线 


图 8-6 新 增 用 户 留 存 率 预测 曲线 
纵 坐 标 是 留存 率 ， 横 坐标 是 自然 时 间 轴 ， 我 们 希望 求 出 如 下 客 指 数 函 数 y = axp 的 a、b 值 。 由 于 篇 幅 有 限 ， 这 里 直接 给 出 结论 ， 其 值 可 以 用 以 下 两 个 公式 表示 ， 熟 悉 Excel 的 用 户 应 该 不 会 陌生 : 
. a=EXP (INDEX (LINEST (LN (Known Ys) ，LN (Known Xs) ) ，2) ) 
. b=INDEX (LINEST (LN (Known Ys) ，LN (Known Xs) ) ,1) 


为 了 照顾 不 习惯 使 用 Excel 的 读者 ， 对 公式 稍 作 解释 ， 第 一 个 公式 中 的 LINEST 函 数 是 对 已 知 的 坐标 集合 返回 线性 回归 方程 的 参数 ， 也 就 是 取 与 该 坐标 集合 拟 合 最 好 的 一 条 直线 ，LN 为 自然 对 数 函 数 。 
INDEX (LINEST (LN (Known Ys) ，LN (Known Xs) ) ，2) 是 指 取 这 条 曲线 的 Y 轴 截 距 (X = 0 时 的 函数 值 ) ，EXP 是 自然 导数 函数 e。 


如 果 利用 R 语 言 求 宕 函数 的 a8、b 值 ， 使 用 非 线性 回归 nls 函 数 可 以 轻松 求 出 3、b 值 ， 该 函数 的 主要 表达 式 为 nls (formula，start，.…) ， 其 中 formula 是 非 线性 回归 模型 的 表达 形式 ， 即 y = axp，start 是 
参数 初始 值 。 


假设 市 场 部 在 LT 预测 平台 上 填写 了 某 款 游戏 前 7 日 实际 留存 率 的 数据 ， 如 图 8-7 所 示 。 


留存 率 人 参数 设置 


图 8-7 新 增 用 户 前 期 留存 率 填写 


然后 根据 填写 的 真实 留存 率 值 ， 利 用 nls 函 数 ， 求 出 系数 a、b 的 值 。 


> # 前 期 实际 留存 率 数 据 

> (day <- seq(1:7)) # 天 数 

[网 ] 二 这 守 于 恒 6 了 7 

> (ratio <- c(0.392,0.278,0.196,0.166,0.106,0.096,0.046)) # 留存 率 值 
[1] 0.392 0.278 0.196 0.166 0.106 0.096 0.046 
> 
> 
> 


# 利用 nlLs 函 数 求 出 咎 指数 函数 y=axx^pb 的 系数 a、b 

fit <- nls 2 b,start = list (a=1,b=1)) 
# 查看 模型 结果 

> summary (fit) 

Formula: ratio ~ a * qay^b 

Parameters: 

Estimate Std. Error t value Pr(>|t|) 

a 0.40994 0.03007 13.633 3.81e-05 *** 

b -0.75564 0.08882 -8.507 0.000369 *** 


Signif. codes: 0 ‘***’” 0.001 ‘**’” 0.01 yx 0.05 ‘.” 0.1 “ 1 
Residual standard error: 0.03167 on 5 degrees of freedom 

Number of iterations to convergence: 8 

Achieved convergence tolerance: 2.166e-06 


利用 summary 函 数 查 看 非 线性 回归 模型 的 结果 ， 参 数 a 为 0.41，b 为 -0.75， 两 者 P 值 远 小 于 0.05， 说 明 其 系数 估计 值 极其 显著 ，Residual standard error ( 残 差 平方 误差 率 ) 值 为 0.032， 说 明 模 型 整体 
预测 效果 好 。 


接 下 来 ， 利 用 建立 的 预测 模型 ， 用 predict 预 测 函 数 对 新 增 用 户 接 下 来 365 日 每 天 的 留存 率 进行 预测 。 


> # 对 新 增 用 户 接 下 来 365 日 每 天 的 留存 率 进 行 预测 

> predicted <- predict (fit,data.frame (day=seqgq (1,365))) 
> # 查看 预测 结 
> predicted 
[1] 0.409943205 0.242802493 0.178727508 0.143807849 0.121493608 0.105857309. pp 
[361] 0.004788140 0.004778142 0.004768192 0.004758291 0.004748436 


该 游戏 在 未 来 时 间 里 的 留存 率 很 低 ， 在 最 后 5 天 里 的 留存 率 不 足 0.5%。 
使 用 dygraphs 包 中 的 dygraph 消 数 绘 制 交 互 留存 率 预 测 曲线 ， 如 图 8-8 所 示 。 


library (dygraphs) 
data <- as.data.frame (predicted) 
data <- ts (data) 
dygraph (data,main=" 留 存 了 预测 曲线 ") %$>% 
dySeries ("predicted", label=" 留 存 率 ", strokeWidth = 2) 多 > 多 
dyOptions (colors = "green",fillGraph = TRUE,fillAlpha = 0.4) %> 
dyHighlight (highlightCircleSize = 5, 
highlightSeriesBackgroundAlpha = 0.2, 
hideOonMouseOut = FALSE) %>% 
dyAxis ("x",， label = "日 期 ", drawGrid = FALSE) %>% 
dyAxis("y"，label = "留存 率 ") %>% 
dyRangeSelector () 


ob 


0.45 留 行 了 项 测 曲线 7: 留 存 率 :0.09 


图 8-8 留存 率 预 测 曲线 
8.2.3 ”优化 预测 曲线 


真实 的 留存 率 曲线 并 不 是 完全 贴近 预测 曲线 ， 会 存在 锯齿 情况 ， 不 如 大 函数 拟 合 得 那么 平滑 。 现 在 希望 利用 游戏 的 实际 留存 率 对 比 留 存 率 预测 曲线 ， 找 出 差异 所 在 ， 并 通过 实际 值 对 预测 模型 进行 调 


优 。 经 过 对 比 发 现 ， 不 同 游戏 大 致 可 以 分 为 两 类 : 一 类 是 利用 前 期 留存 率 预测 未 来 365 天 ， 出 现 前 期 预测 准 ， 后 期 预测 误差 大 的 问题 ; 另 一 类 是 预测 结果 与 实际 结果 偏差 不 大 ， 只 需 略 微调 整 。 通过 研究 得 


出 规律 : 后 期 预测 值 大 于 实际 值 ， 通 过 预测 的 留存 率 乘 以 一 个 比例 系数 ， 让 预测 的 留存 率 降 低 ， 更 接近 实际 值 ; 且 发 现 ， 留 存 率 降低 的 比例 并 不 是 一 成 不 变 的 ， 而 是 表现 出 ， 越 到 后 期 留存 率 降低 的 比例 就 
越 高 ， 需 要 乘 以 的 比例 系数 (T) 也 应 该 越 小。 两 类 的 比例 系数 T 值 如 图 8-9 所 示 。 


(1-70 日 » T 值 《71-Xxxx 日 ) T 值 


om | 1 | 07-00H | 045 
08-14H | 09 | O91-10H | 042 
1521 | 085 | 111-150H | 035 
22728 | 08 | 151-190H | 03 


43-49 日 | 065 | 271-310 昌 | 015 
50-568 | 06 | 311-3506 | ol 
57-63 日 | 055 | 351 昌 以 后 | 005 
aang| os | | 


I 类 
(1-70 日 » T 值 《7 了 1-Xxxx 日 ) T 值 
oo | 1 | ouon | 045 | 
08-14H | 09 | llo | 04 
22728H | 08 | 191-230H | 03 | 


43-49 日 | 065 | 311-3506 | 015 
50-56 日 | 06 | 35IHB 后 | ol 
576 昌 | 055 | | 
an)| oo | | 


图 8-9 不 同时 期 的 T 值 对 应 表 


现在 有 两 种 不 同类 型 游戏 的 历史 留存 率 数 据 ， 利 用 前 7 日 留存 率 的 实际 值 数据 对 未 来 一 年 的 留存 率 进 行 


# 导入 实际 留存 率 数 据 
actual <- teadq.csv(" 实 际 留存 数据 .csvV'") 
# 预测 类 型 1 的 游戏 的 留存 率 
typel <- actual[1:772] 
day <- seq (1: 7) 
Fit <- nls (typel~a*day’b,start = list (a=1,b=1)) 
it 
onlinear regression model 
model: typel ~ a * day’b 

data: parent.frame () 

a b 

0.3819 =0.,.5085 
residual sum-of-squares: 2.76e-05 
Number of iterations to convergence: 7 
Achieved convergence tolerance: 9.236e-08 
> predictedl1 <- round (predict (fitl1,data.frame (day=seq (1,365))),3) 
> # 预测 类 型 2 的 游戏 的 留存 率 
> type2 <- actual[1:773] 
> day <- Sedq(1:7) 
> fit2 <- nls (type2~a*day’b,start = list (a=1,b=1)) 
> 
N 


VVVVvVVvVVvVYV 


fit2 

onlinear regression model 

model: type2 ~ a * day’b 

data: parent.frame () 
a b 

0.3132 -0.6577 

residual sum-of-squares: 5.67e-06 
Number of iterations to convergence: 6 
Achieved convergence tolerance: 8.196e-07 
> predicted2 <- round (predict (fit2,data.frame (day=seq (1,365))),3) 
> # 将 预测 值 与 原始 值 合并 在 一 起 
> result <- data.frame (actual,predictedl1,predicted2) 
> head (result) 

day Typel Type2 predictedl predicted2 


1 1 0.383. .0.313 0.382 0.313 
2 20.268 0.200 0.268 0.199 
3. .3°0:216 0151 0.218 0:152 
4 40.187 0.125 0.189 0.126 
5 5067 O108 0.168 0.109 
6 6 0.136 0.097 0..154 0.096 


将 不 同类 型 的 T 值 导入 R 中 ， 计 算 调 整 后 的 预测 值 。 


> # 导入 T 值 

> tvalue <- read.csv ("TIT 值 .csv") 

> # 对 typel 类 型 的 游戏 计算 调整 预测 值 

> Tan a .Predictedl <- tvalue$Tl*result$predicted] 

> # 对 type2 类 型 的 游戏 计算 调整 预测 值 

> resul] tsagdjust. predicted2 <- tvalue$T2*result$predicted2 

> # 查看 数据 前 六 行 

> head (result) 

day Typel Type2 predictedl1 predicted2 adjust.predictedl adjust.predicted2 
下 1 0.383 0.313 0.382 D05313 0.382 0.313 
2 2 0.268 0.200 0.268 0.199 0.268 0.199 
3 3°0:216 0.]51 0i.218 DaLl32 0.218 0.152 
4 4 0.187 0.125 0.189 0.126 0.189 0.126 
5 50.167 0.108 0.168 0.109 0.168 0.109 
6 6 0.156 0.097 0.154 0.096 0.154 0.096 
利用 result 结 果 集 ， 绘 制 类 型 1 和 类 型 2 的 留存 率 了 预测 曲线 ， 如 图 8-10 所 示 。 

# 绘制 留存 率 曲 线 

# 绘制 类 型 1 的 预测 曲线 

# 绘制 实际 留存 率 曲线 
plot (Typel~day, data=result, col="slateblue2",main=" 类 型 1 的 留存 率 曲 线 "， 

De xaxt="n", 1ty=1, lwd=2) 

# 绘制 留存 率 预测 曲线 

ee result,col="violetred3",type="1",1ty=2, lwd=2) 

# 绘制 留存 率 调 整 预测 曲线 

lines (adjust.predictedl~day,data=result,col="yellowgreen",type="1",1ty=3, lwd=2) 
# ”增加 图 例 

legend ("top", legend=colnames (result) [c(2,4,6)],lty = 1:3, 

col=c ("slateblue2","violetred3","yellowgreen") ,bty = "n") 
# 绘制 类 型 2 的 预测 曲线 
# 绘制 实际 留存 率 曲线 
plot (Type2~day, data=result,col="slateblue2",main=" 类 型 2 的 留存 率 曲 线 "， 
ee xaxt="n", 1ty=1, lwd=2) 
# 绘制 留存 率 预测 曲线 
人 
# 绘制 留存 率 调 整 预测 曲线 
lines (adjust.predicted2?~day,data=result,col="yellowgreen",type="1",1ty=3, lwd=2) 
# ”增加 图 例 
legend ("topright",1legend=colnames (result) [c(3,5,7)],1lty = 1:3, 
col=c ("slateblue2", "violetred3","yellowgreen") ,bty = "n")a) 


从 图 8-10 中 可 以 看 出 ， 在 没有 乘 以 比例 系数 T 前 ， 类 型 1 的 预测 曲线 存在 越 后 期 离 实际 曲线 越 远 的 情况 ， 在 各 自 乘 以 比例 系数 T 后 


， 两 种 类 型 的 调整 预测 曲线 都 很 好 地 贴近 实际 曲线 ， 很 好 地 预测 了 未 来 


留存 率 . 


8.3 用户 济 失 预测 


游戏 运营 者 如 果 能 够 尽早 发 现 可 能 流失 的 用 户 ， 尽 早 有 针对 性 对 这 些 用 户 进行 适当 干预 ， 就 能 最 大 限度 延长 用 户 在 游戏 中 的 停留 时 间 ， 使 游戏 运营 者 获得 更 大 的 收益 。 游 戏 用 户 的 流失 分 为 登录 流失 和 
付费 流失 两 种 。 周 登录 流失 的 定义 为 本 周 有 过 登录 行为 的 用 户 在 接 下 来 的 一 周 未 登录 过 游戏 。 周 付费 流失 的 定义 为 本 周 充值 用 户 在 下 周 不 再 有 付费 行为 ， 但 有 可 能 还 有 登录 行为 ， 这 部 分 用 户 被 称 为 沉默 付 
费用 户 。 


—— Typel 一- predicted] 一 一 一 adjust.predicted 1 


Typnel 


4) 类 型 ] 的 留存 率 曲线 


mo— Type2 < predicted2 ee adjust.predicted2 


J.20 0.23 -0.30 


lype2 
D.13 


r 


0.10 


0U.U> 


0.00 


dav 


b ) 类 型 2 的 留存 率 册 线 


图 8-10 不 同类 型 的 留存 率 曲 线 


对 于 用 户 是 否 流失 的 预测 方法 ， 通 常 是 对 已 知 样本 利用 分 类 算法 先 建立 模型 ,再 对 其 他 用 户 进行 流失 预测 。 可 见 ， 做 流失 预测 最 核心 的 工作 是 构建 分 类 模型 以 及 选择 最 优 模型 。 接 下 来 先 学 习 常 用 的 分 

类 模型 以 及 模型 评估 方法 。 
8.3.1 分 类 及 模型 评估 
分 类 算法 是 基于 类 标号 的 训练 集 数 据 建立 分 类 模型 并 使 用 其 对 新 观测 值 (测试 数据 集 ) 进行 分 类 的 算法 ， 属 于 有 监督 学 习 方法 。 

分 类 需要 把 精力 花费 在 学 习 问 题 找到 合适 的 分 类 器 上 。 这 时 候 ， 考 虑 不 同 算法 间 的 各 种 差异 是 很 有 帮助 的 。 例 如 ， 在 分 类 问题 中 ， 决 策 树 因 在 建 模 过 程 中 有 明确 的 规则 输出 而 使 模型 通俗 易 懂 ， 而 黑箱 
操作 的 神经 网 络 得 到 的 模型 则 很 难 解释 。 如 果 要 设计 一 个 欺诈 用 户 甄别 模型 ， 上 述 的 模型 特点 就 是 很 重要 的 选择 模型 依据 ， 因 为 需要 发 现 苏 诈 用 户 的 异常 行为 模式 ， 即 使 神经 网 络 算法 能 更 好 地 杜 别 欺诈 用 
户 ， 但 是 如 果 不 能 解释 清楚 这 些 预测 背后 的 模式 ， 那 么 再 好 的 预测 也 是 没有 用 的 。 

接 下 来 各 小 节 都 会 给 出 各 种 分 类 算法 的 基本 原理 以 及 R 语 言 实现 ， 读 者 可 以 根据 各 种 算法 的 特点 选择 最 适合 你 的 业务 数据 和 需求 来 完成 分 类 工作 。 但 是 模型 的 选择 是 带 有 随机 性 的 ， 从 这 个 角度 看 ， 也 可 
以 自由 使 用 多 个 算法 来 完成 相同 的 工作 ， 通 过 评估 模型 效果 ， 选 择 一 个 最 好 的 。 

1.KNN 近 邻 分 类 

KNN (k-Nearest Neighbor) 分 类 算法 是 数据 挖掘 分 类 技术 中 较 简 单 的 方法 之 一 。 所 谓 kK 最 近邻 ， 就 是 k 个 最 近邻 居 的 意思 ， 是 指 每 个 样本 都 可 以 用 它 最 接近 的 k 个 邻居 来 代表 。KNN 分 类 算法 是 理论 
上 比较 成 熟 的 方法 ， 也 是 较 简单 的 机 器 学 习 算 法 之 一 。 该 方法 的 思路 是 : 如 果 一 个 样本 在 特征 空间 中 的 k 个 最 相似 ( 即 特征 空间 中 最 邻近 ) 的 样本 中 的 大 多 数 属 于 某 一 个 类 别 ， 则 该 样本 也 属于 这 个 类 别 。 在 
KNN 算 法 中 ， 所 选择 的 邻居 都 是 已 经 正确 分 类 的 对 象 。 该 方法 在 定 类 决策 上 只 依据 最 邻近 的 一 个 或 者 几 个 样本 的 类 别 来 决定 待 分 样本 所 属 的 类 别 。KNN 方 法 虽然 从 原理 上 也 依赖 于 极限 定理 ， 但 在 类 别 决策 
时 ， 只 与 极 少 量 的 相 邻 样本 有 关 。 由 于 KNN 方 法 主要 依靠 周围 有 限 的 邻近 样本 ， 而 不 是 依靠 判别 类 域 的 方法 来 确定 所 属 类 别 ， 因 此 对 于 类 域 的 交叉 或 重 蔷 较 多 的 待 分 样本 集 来 说 ，KNN 方 法 较 其 他 方法 更 为 
适合 。 


KNN 算 法 分 类 的 实现 原理 如 图 8-11 所 示 。 
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图 8-11 邻近 算法 示意 图 
在 图 8-10 中 ， 圆 形 要 被 决定 赋予 哪个 类 ， 是 三 角形 还 是 四 方形 ? 如 果 k = 3， 由 于 三 角形 所 占 比 例 为 2/3， 圆 形 将 被 赋予 三 角形 那个 类 ， 如 果 k = 5， 由 于 四 边 形 比例 为 05， 因此 圆 形 被 赋予 四 边 形 类 。 
在 R 语 言 中 ， 有 多 种 方法 实现 KNN 算 法 ， 常 用 的 有 以 下 三 种 : 一 是 通过 class 包 中 的 knn () 函数 ; 二 是 通过 kknn 包 中 的 kknn () 还 数 ; 三 是 通过 caret 包 中 的 train () 函数 。 


(1) knn () 较 数 


knn (train, test, cl, k= 1, 1 = 0, prob = FALSE, use.all = TRUE) 


其 中 ，train 为 训练 集中 的 自 变量 Xi; test 为 测试 集中 的 自 变量 Xi; cl 为 训练 集中 的 因 变量 Yi;，k 为 邻居 个 数 ;，prob 为 是 否 计 算 预 测 组 别 的 概率 ， 默 认为 FALSE 表 示 不 计算 ， 如 果 为 TRUE， 则 结果 中 的 
prob 属 性 存放 该 概率 的 数值 。 


(2) kknn () 函数 


kknn (formula = formula(train)， train, test, na.action = na.omit(), k = 7, distance = 2,…) 


其 中 ，formula 模 型 为 表达 式 ;train 为 训练 集 数 据 ，test 为 测试 集 数 据 ，na.action 表 示 缺 失 值 处 理 ， 默 认为 去 掉 缺 失 值 ，k 为 设置 邻居 个 数 ， 默 认为 7;distance 为 闵可夫 斯 基 距 离 ， 默 认 2 为 欧式 距 


离 。 
kknn () 函数 对 于 基本 的 knn () 函数 有 很 大 程度 的 扩展 。 它 可 以 结合 核 冰 数 ， 利 用 距离 进行 加 权 计算 。 


(3) train () 函数 


train(x, y, method = "knn", weights = NULL, trControl = trainControl(), …) 


其 中 ，x 为 训练 集中 的 自 变 量 Xi; y 为 训练 集中 的 因 变 量 Yi; method 指 定 使 用 的 分 类 或 回归 模型 。 为 knn 时 就 是 进行 近邻 算法 ; weights 为 权重 向 量 ; trContro| 为 模型 参数 设置 ， 用 于 进一步 控制 模型 的 
创建 。 


利用 KNN 算 法 对 准 尾 花 的 种 类 进行 预测 ， 并 通过 自 定义 函数 解释 KNN 算 法 的 实现 原理 。 


> # 随机 抽取 1/2 的 样本 作为 训练 集 ， 另 外 一 半 的 样本 作为 测试 集 来 验证 模型 的 效果 
irisl<-iris 
set.seed (1234) 
## 利用 caret 包 的 createDataPartition 吕 数 按 不 同类 别 等 比例 抽取 50% 
library (caret) 
ind <- createDataPartition (irisl$Species,times=1,p=0.5,1ist=F) 
traindata <-irisl[ing,] # 构 建 训练 集 
testdata <- irisl[-ind,] # 构 建 测 试 集 
# 利用 class 包 中 的 knn 函 数 对 测试 集 的 分 类 进 行 预 测 。 
Jibrary (class) 
a=knn (traindatal[l,1:4],testdatal[,1:4], Vi ta a 5] ,k=3) # 指 定 Kk 值 为 3 
a[1];a[75] 上 查看 第 一 条 和 最 后 一 条 测试 数据 的 预测 告 果 
|] setosa 
evels: setosa versicolor virginica 
[1] virginica 
Levels: setosa versicolor virginica 
> # KNN 算 法 流程 验证 : 
> Ce <— function (n=1, k=3 

# 计算 第 n 个 测试 集 样本 与 训 于 集 样本 的 距离 
x <- (traindata[,l1:4] -testdatalrep (ny 75),1:4])^2 
traindata$dist1 J apply (x, 1, function (x) es 
# 对 距离 进行 升序 排序 ， 选 择 最 近 的 K 个 邻居 
mydata <- traindatal[lorder (traindata$dist]1) [1:k],5:6] 
# 统计 不 同类 别 的 频数 
result <- data.frame (sort (table (mydata$Species),decreasing = T)) 
# 给 出 最 后 的 预测 结果 
return (result [1,1]) 
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中 
> ceshi () # 第 一 个 样本 的 预测 结果 

[1] setosa 

Levels: setosa versicolor a 
> ceshi (n=75) # 最 后 一 个 样本 的 预测 结果 
[1] virginica 

Levels: virginica setosa versicolor 


对 象 3 是 利用 knn () 遂 数 对 测试 集 数 据 的 预测 结果 ， 第 一 个 样本 的 预测 类 别 为 Setosa， 最 后 一 个 样本 的 预测 lan 与 实际 值 相同 。ceshi 函 数 是 实现 KNN 算 法 的 基本 原理 : 首先 计算 测试 样 
本 与 训练 样本 集 的 欧式 距离 ， 然 后 对 距离 进行 升序 排序 ， 统 计 最 近 k 个 邻居 的 所 属 类 别 ， 将 占 比 最 大 的 类 别 赋予 预测 结果 。 经 过 验证 ，ceshi 函 数 与 knn 函 数 的 预测 结果 相同 。 


2. 朴 素 贝 叶 斯 分 类 


朴素 贝 叶 斯 分 类 (Naive Bayes Classifier) 是 一 种 十 分 简单 的 分 类 算法 ， 是 一 个 基于 概率 的 分 类 器 ， 它 源 于 贝 叶 斯 理论 ， 假 设 样本 属性 之 间 相 互 独立 。 它 的 思路 非常 简单 : 对 于 给 出 的 待 分 类 项 ， 求 解 
在 此 项 出 现 的 条 件 下 各 个 类 别 出 现 的 概率 ， 哪 个 最 大 ， 就 认为 此 待 分 类 项 属于 哪个 类 别 。 


(1) 朴素 贝 叶 斯 分 类 的 阶段 。 
整个 朴素 贝 叶 斯 分 类 分 为 三 个 阶段 。 


第 一 阶段 一 一 准备 工作 阶段 。 这 个 阶段 的 任务 是 为 朴素 贝 叶 斯 分 类 做 必要 的 准备 ， 主 要 工作 是 根据 具体 情况 确定 特征 属性 ， 并 适当 划分 每 个 特征 属性 ， 然 后 由 人 工 对 一 部 分 待 分 类 项 进行 分 类 ， 形 成 训 
练 样本 集合 。 这 一 阶段 的 输入 是 所 有 待 分 类 数据 ， 输 出 是 特征 属性 和 训练 样本 。 这 一 阶段 是 整个 朴素 贝 叶 斯 分 类 中 唯一 需要 人 工 完成 的 阶段 ， 其 质量 对 整个 过 程 有 重要 影响 。 


第 二 阶段 一 一 分 类 器 训练 阶段 。 这 个 阶段 的 任务 就 是 生成 分 类 器 ， 主 要 工作 是 计算 每 个 类 别 在 训练 样本 中 的 出 现 频 率 及 每 个 特征 属性 划分 对 每 个 类 别 的 条 件 概率 估计 ， 并 记录 结果 。 其 输入 是 特征 属性 
和 训练 样本 ， 输 出 是 分 类 器 。 


第 三 阶段 


介 段 。 这 个 阶段 的 任务 是 使 用 分 类 器 对 待 分 类 项 进行 分 类 ， 其 输入 是 分 类 器 和 待 分 类 项 ， 输 出 是 待 分 类 项 与 类 别 的 映射 关系 。 
(2) 朴素 贝 叶 斯 分 类 算法 


在 R 语 言 中 ， 朴 素 贝 叶 斯 分 类 算法 有 三 种 实现 方式 : 一 是 借助 程序 包 e1071 中 的 naive-Bayes () 函数 ; 二 是 借助 程序 包 klaR 中 的 NavieBayes () 函数 ; 三 是 将 程序 包 中 的 train () 函数 中 的 method 方 
法 设置 为 nb 即 可 。 


naiveBayes () 函数 


naiveBayes (formula, data, laplace = 0, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/..., subset, na.action = na.pass) 


其 中 ，formula 为 建 模 公 式 ;data 为 训练 数据 集 ; laplace 为 拉 普 拉 斯 估计 值 ， 默 认为 0; na.action 设 置 对 缺失 值 的 处 理 ， 默 认为 na.pass， 即 不 删除 含有 缺失 数据 的 行 ， 但 在 计算 概率 时 不 考虑 此 类 数 
据 。 


“ NaiveBayes () 函数 


NaiveBayes (formula, data,:…, subset,na.nation=na.pass) 


可 以 发 现 ， 这 两 个 函数 的 用 法 相同 。 该 函数 可 以 输入 先 验 概率 ， 另 外 在 正 态 分 布 基础 上 增加 了 核 平 滑 密度 函数 。 
现 有 一 份 汽车 满意 度 car 数 据 集 ， 数 据 内 容 如 下 。 

buy: buyingptice (购买 价格 ， 分 为 low，med，high，vhigh) 

* main: ptice of the maintenance (保养 价格 ， 分 为 low，med，high，vhigh) 


doors: number of doors 〈 门 的 个 数 ， 分 为 2，3，4，5 or more) 


capacity: capacity in tetms of petsons to catty ( 载 人 个 数 ) 

.lug_boot: the size of luggage boot (车 身 的 大 小 ， 分 为 small，med，big) 
.safety: estimated safety of the car (安全 程度 ， 分 为 Jow，med，high) 

.accept: cat acceptability (被 接受 程度 ， 四 个 等 级 : unacc，acc，good，vgood) 


根据 buy、main、doors、capacity、Iug_boot、safety 来 预测 accept 的 值 ， 其 中 自 变量 和 因 变 量 均 为 因子 变量 。 以 naiveBayes () 函数 构建 朴素 贝 叶 斯 分 类 器 ， 预 测 汽车 被 接受 程度 。 


# 导入 car 数 据 集 

car <- read.table("car.data",sep = ",") 

# 重 命名 变量 

colnames (car) <- c("buy", "main","doors","capacity", 
"lug boot","safety", "accept") 

# 随机 选取 75% 的 数据 作为 训练 集 建立 模 型 ，25% 的 数据 作为 测试 集 用 来 验证 模型 

Jibrary (caret) 

# 构建 训练 集 的 下 标 集 

ind <- createDataPartition (car$accept,times=1,p=0.75,1ist=FALSE 

# 构建 测试 集 数据 和 训练 集 数据 

carTR <- carling,] 

carTE <- carl[l-ind,] 

# 使 用 naiveBayes 函 数 建立 朴素 贝 叶 斯 分 类 器 

library (e1071) 

naiveBayes.model <- naiveBayes (accept~.,data=carTR) 

# 预测 结果 

CarTR predict <- predict (naiveBayes.model,newdata=carTR) 

carTE predict <- predict (naiveBayes .model,newdata=carTE) 

# 构建 混淆 矩阵 

tableTR <- table (actual=carTR$accept,predict=carTR predict 

tableTE <- table (actual=carTE$accept,predict=carTE predict 


# 计算 误差 


~ 一 


训练 集 数 据 
测试 集 数据 


i 


~ 一 
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errTR <- paste0 (found ( (sum(tableTR) -sum(diag (tableTR)))*100/sum (tableTR), 
2) 8 的 
> errTE <- paste0 (found ( (Sum (tableTE) -sum(dqiag (tableTE) ) )*100/sum (tableTE) ， 
四 2 7 和 
> errTR;errTE 
[由 | 12.03%" 
[] ] "12 .53%" 


可 见 ， 对 训练 集 和 测试 集 的 预测 误差 率 在 12%， 说 明 模 型 拟 合 效果 不 错 。 

3. 决 策 树 模型 

决策 树 (decision tree) 是 一 种 树 状 分 类 结构 模型 。 它 是 一 种 通过 拆 分 变量 值 建立 分 类 规则 ， 又 利用 树 形 图 分 割 形成 概念 路 径 的 数据 分 析 技 术 。 

(1) 决策 树 的 基本 思想 

决策 树 的 基本 思想 由 两 个 关键 步骤 组 成 。 

1) 对 特征 空间 按 变 量 对 分 类 效果 影响 大 小 选择 变量 和 变量 值 。 

2) 用 选 出 的 变量 和 变量 值 对 数据 区 域 进行 矩阵 划分 ， 在 不 同 的 划分 区 间 比 较 效 果 和 模型 复杂 度 ， 从 而 确定 最 合适 的 划分 ， 分 类 结果 由 最 终 划 分 区 域 的 优势 类 确定 。 


决策 树 主要 用 于 分 类 ， 也 可 以 用 于 回归 ， 与 分 类 的 主要 差异 在 于 选择 变量 的 标准 不 是 分 类 的 效果 ， 而 是 预测 误差 。 当 决策 树 的 输出 变量 ( 因 变 量 ) 是 分 类 变量 时 ， 叫 分 类 树 ， 当 决策 树 的 输出 变量 为 连 
续 变 量 时 ， 称 为 回归 树 。 虽 然 回 归 树 的 因 变量 是 连续 变量 ,但 叶 节 点 数据 是 有 穷 的 ， 因 此 输出 的 值 也 是 在 这 个 叶 节 点 上 的 平均 观测 值 。 回 归 树 不 用 假定 经 典 回归 中 的 诸如 独立 性 、 正 态 性 、 线 性 等 特性 ,无 
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论 自 变 量 是 数量 变量 还 是 定性 变量 ， 都 同样 适用 。 


和 经 典 回归 不 同 ， 决 策 树 不 需要 对 总 体 假设 分 布 。 而 且 决 策 树 对 于 预测 很 容易 解释 ， 这 是 其 优点 。 此 外 ， 决 策 树 很 容易 计算 ,但 有 必要 设 定 不 使 其 过 分 生长 的 停止 规则 或 者 修 草 方 法 。 决 策 树 的 一 个 缺 
点 是 每 次 分 义 只 和 前 一 次 分 义 有 关 ， 而 且 并 不 考虑 对 以 后 的 影响 。 因 此 ， 每 个 节点 都 依赖 于 前 面 的 节点 ， 如 果 一 开始 的 划分 不 同 ， 结 果 也 可 能 很 不 一 样 。 


(2) 决策 树 的 构建 过 程 
决策 树 的 构建 过 程 可 以 概括 为 如 下 4 个 步骤 。 


1) 决策 树 的 生成 。 这 一 过 程 将 初始 的 包含 大 量 信息 的 数据 集 ， 按 照 一 定 的 划分 条 件 逐 层 分 类 至 不 可 再 分 或 不 需 再 分 ， 充 分 生成 树 。 具 体 地 ， 在 每 一 次 分 类 中 ， 先 找 出 各 个 可 以 作为 分 类 变量 的 自 变 量 所 
有 可 能 的 划分 条 件 ， 再 比较 每 一 个 自 变量 在 各 个 划分 条 件 下 所 得 分 支 的 差异 大 小 ， 选 出 使 得 分 支 差 异 最 大 的 划分 条 件 作为 该 自 变 量 的 最 优 划 分 ; 再 比较 各 个 自 变 量 在 最 优 划 分 下 所 得 分 支 的 差异 大 小 ， 选 出 
差异 最 大 者 作为 该 节点 的 分 类 变量 ， 并 采用 该 变量 的 最 优 划 分 。 


2) 生成 树 的 剪 核 。 利 用 决策 树 算 法 构建 初始 的 树 之 后 ， 为 了 有 效 地 分 类 ， 还 要 对 其 进行 剪 枝 。 这 是 因为 数据 表示 不 当 、 有 噪声 等 原因 ， 会 造成 生成 的 决策 树 过 大 或 过 度 拟 合 。 所 以 为 了 简化 决策 树 ， 寻 
找 一 棵 最 优 的 决策 树 ， 剪 校 是 必 不 可 少 的 过 程 。 不 同 算法 的 前 校方 法 也 不 尽 相 同 。 常 用 的 剪 术 3 方法 有 预 郸 枝 和 后 前 枝 两 种 。 例 如 CHILD 和 C5.0 采 用 预 音 枝 ，CART 采 用 后 前 校 。 


. 预 剪 枝 : 是 指 在 构建 决策 树 之 前 ， 先 指定 好 生长 停止 准则 (如 指定 菜 个 评估 参数 的 阅 值 ) ， 此 做 法 适合 应 用 于 大 规模 问题 。 
. 后 剪 枝 : 是 指 待 决策 树 完 全 生长 结束 后 ， 再 根据 一 定 的 规则 ， 剪 去 决策 树 中 那些 不 具 一 般 代 表 性 的 叶子 节点 或 者 分 支 。 


3) 生成 规则 。 生 成 一 棵 最 优 的 决策 树 之 后 ， 就 可 以 根据 这 棵 决策 树 来 生成 一 系列 规则 。 这 些 规则 采用 “if...then…” 的 形式 。 从 根 节点 到 叶子 节点 的 每 一 条 路 径 ， 都 可 以 生成 一 条 规则 。 这 条 路 径 上 的 
分 裂 属性 和 分 裂 谓词 形成 规则 的 前 件 (if 部 分 ) ， 叶 子 节点 的 类 标号 形成 规则 的 后 件 (then 部 分 ) 。 


4) 模型 性 能 和 预测 。 建 立 好 模型 后 ， 可 以 利用 测试 数据 测试 生成 的 决策 树 ， 常 用 混淆 矩阵 和 预测 误差 率 来 验证 模型 的 性 能 。 选 择 最 优 模型 后 ， 可 以 预测 新 数据 的 分 类 。 
决策 树 常用 的 算法 有 以 下 几 种 。 
. ID3 算 法 是 最 有 影响 力 的 决策 树 算法 之 一 ， 由 Quinlan 提 出 。ID3 算 法 的 某 些 弱点 被 改善 之 后 得 到 了 C4.5 算 法 ，C5.0 则 进一步 改进 了 C4.5 算 法 ， 使 其 综合 性 能 大 幅度 提高 。 
. CART (分 类 回归 树 ) 顾名思义 是 既 可 以 建立 分 类 树 ， 也 可 以 构建 回归 树 的 算法 。 
.条件 推理 决策 树 算法 (conditional inference ttees) 是 以 自 变量 与 目标 变量 的 相关 性 〈 一 些 统计 检验 ) 为 分 裂 度量 指标 的 算法 。 


各 种 决策 机 算法 在 R 语 言 均 有 对 应 的 函数 实现 。 可 以 通过 RWeka 包 中 的 J48 函 数 来 调用 weka 的 C4.5 算 法 ; 通过 C50 扩 展 包 中 的 C5.0 函 数 实现 C5.0 算 法 ; 通过 rpart 包 中 的 rpart 函 数 实现 CART 算 法 ; 通过 
party 包 中 的 ctree 函 数 实现 条 件 推理 决策 树 算法 。 


“J]48 () 函数 


J48 (£ 


ormula, data, subset, na.action,control=Weka control ()) 


其 中 ，formula 为 建 模 公 式 ; data 为 包含 formula 参 数 变量 的 数据 框 ; subset 为 子 数据 集 


数 ， 使 用 Weka_control () 遂 数 设置 。 
. C5.0 () 函数 
C5.0(x, y, trials = 1, 


其 中 ，x 为 一 个 包含 训练 数据 的 自 变量 ; y 为 包含 训练 数据 的 因 变 量 ;trials 为 一 个 可 选 值 ， 用 于 控制 自助 法 循环 的 次 数 (默认 为 1) ，; 


“ tpatt () 区 娄 


rpart (formula,data, subset,na.action=na.rpart,method,parms, control,…) 


其 中 ，formula 为 建 模 公式 ; data 为 包含 formula 参 数 变 量 的 数据 框 ; subset 为 子 数据 集 


集 ; na.action 为 缺失 数据 的 处 理 方法 ， 默 认 是 删除 目标 变量 的 数据 ， 保 留 自 变量 的 数据 ; control 为 C4.5 算 法 的 参 


rules= FALSE, weights = NULL,costs = NULL, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/...) 


; costs 为 一 个 可 选 矩 阵 ， 用 于 给 出 与 各 种 类 型 错误 相对 应 的 成 本 。 


集 ; na.action 为 缺失 数据 的 处 理 方法 ， 默 认 是 删除 目标 变量 的 数据 ， 保 留 自 变量 的 数据 ; method 为 变量 分 割 方 


法 ， 该 参数 有 4 种 取 值 : 连续 型 对 应 anova， 分 类 型 (因子 ) 对 应 class， 计 数 型 对 应 poisson ( 泊 松 ) ， 生 存 分 析 型 对 应 exp， 一 般 情 况 下 ， 函 数 会 自动 检验 目标 变量 的 数据 类 型 ， 自 动 匹配 合适 的 取 值 ; 
contro| 为 模型 建立 时 用 于 停止 分 裂 的 一 些 参数 ， 其 值 是 rpart.control 函 数 的 输出 对 象 。 
:cttee () 函数 
ctree (formula, data, subset = NULL, weights = NULL, 
control = ctree control(),…) 
其 中 ，formula 为 建 模 公式 ;data 为 包含 formula 参 数 变 量 的 数据 框 ; subset 为 子 数据 集 ; contro| 为 模型 建立 时 用 于 停止 分 裂 的 一 些 参数 ， 其 值 是 ctree.control 函 数 的 输出 对 象 。 
接 下 来 ， 利 用 决策 树 算法 对 carTR 数 据 集 建立 分 类 模型 ， 并 利用 构建 的 模型 预测 carTR、carTE 数 据 集 
> # 使 用 决策 树 算 法 建立 分 类 树 
> # 使 用 C50 函 数 实现 C5.0 算 法 
> library (C50) 
> C5.0.model <- C5.0 (accept~.,data=carTR) 
> # 使 用 rpPatt 函 数 实现 CART 算 法 
> library (rpart) 
> rpart.model <- rpart (accept~.,data=carTR) 
> # 使 用 ctfee 函 数 实 现 条 件 推 理 决 策 树 算 法 
> library (Party) 
> ctree.model <- ctree (accept~ .yqata=CarTR) 
> # 预测 结果 ， 并 构建 混 消 给 阵 ， 查看 准确 率 
> # 构建 result， 存 放 预 测 结果 
> result <- data.frame (arithmetic=c ("C5.0", "CART", "ctree"), 
十 errTR=rep (0, 3) ,errTE=rep (0, 3)) 
> for(i in 1:3)f{ 
+  ”# 预测 结果 
CarTR predict <- predict (Switch (i,C5.0.model,rpart.model,ctree.model), 
newdata=carTR, 
type=switch (i, "class", "class", "response") ) # 训练 集 数据 
CarTE predict <- predict (switch(i,C5.0.model,rpart.model,ctree.model), 
newdata=carTE, 
type=switch (i, "class", "class", "response") ) # 测试 集 数 据 
# 构建 混淆 矩阵 
tableTR <- table (actual=carTR$accept,predict=carTR predict) 
tableTE <- table (actual=carTE$accept,predict=carTE predict) 
# 计算 误差 率 
result[i,2] <- paste0 (round( (sum(tableTR) -sum(dqiag (tableTR)))*100/sum(tableTR), 
人) 和) 
result[i,3] <- paste0 (round( (sum(tableTE) -sum(dqiag(tableTE) ) )*100/sum (tableTE) ， 
全 2) .Se") 
+ } 
> # 查看 结果 
> result 
arithmetic errTR errTE 
1 C5.0 2.16% 3.94% 
2 CART 5.55% 5.8% 
3 Ctree 5.24% 6.03% 
使 用 C5.0、CART 和 条 件 推理 决策 树 算法 构建 了 三 种 决策 树 分 类 器 ; 再 利用 predict 阔 数 预测 训练 集 、 测 试 集 的 汽车 满意 度 结果 。for 循 环 中 的 switch (i，C5.0.model,，rpart.model，ctree.model) 语 
句 表达 选择 的 模型 对 象 ， 当 i= 1 时 ， 利 用 C5.0 算 法 构建 的 模型 预测 数据 ，i= 2 时 ， 利 用 CART 算 法 构建 的 模型 预测 数据 ，i = 3 时 ， 利 用 条 件 推理 算法 构建 的 模型 预测 数 
据 ，type=switch (i, "class"， "class"， "response") 语句 表示 采用 不 同 算法 模型 时 输出 的 结果 类 型 ;最 后 构建 混淆 矩阵 和 计算 各 自 的 预测 误差 率 。 从 result 结 果 来 看 ， 对 于 car 数 据 集 ， 决 策 树 算法 明显 优 
于 前 面 的 朴素 贝 叶 斯 算法 ， 且 C5.0 算 法 又 优 于 其 他 两 种 决策 树 算 
4. 集 成 学 习 与 随机 森林 
在 实际 应 用 中 ， 只 使 用 单一 模型 决定 一 组 数据 的 分 类 常常 并 不 可 行 ， 因 为 用 一 个 模型 清晰 描述 数据 分 类 会 使 其 异常 复杂 ， 且 只 使 用 一 种 准则 建立 的 模型 很 难 避 免 不 出 现 过 度 拟 合 ， 一 个 更 好 的 方 


法 是 采用 投票 方法 从 这 些 分 类 器 的 结果 中 选择 最 优 的 模型 ， 换 句 话说 ， 如 果 对 不 同 算 


目前 ，bagging、boosting 和 随机 森林 是 应 用 最 为 广泛 的 三 类 集 


:bagsging 是 投票 式 算法 ， 首 先 使 用 Bootsttap 产 生 不 同 的 训练 数据 集 ， 然 后 分 别 基 于 这 


优点 在 于 它 是 一 个 容易 理解 、 易 于 实现 且 功 能 强大 的 学 习 算 法 ， 但 得 到 的 结果 很 难 解释 则 


:boosting 与 bagging 相 似 ， 主 要 差别 在 于 在 boosting 算 法 中 ， 基 础 分 


补偿 


. 随机 森林 (random forests) 和 使 用 决策 树 作为 基本 分 类 器 的 bagging 有 些 类 似 ， 也 是 进行 多 次 自助 法 放 回 抽样 。 随 机 森林 与 bagging 的 关键 区 别 在 于 ， 在 生成 每 棵 树 时 ， 每 个 节点 都 仅仅 在 随机 先 


变量 中 产生 。 因 此 ， 不 但 样本 是 随机 的 ， 就 连 每 个 节点 变 


R 的 adabag 包 对 boosting 和 bagging 两 种 方法 都 提供 了 支持 。 其 中 ， 对 于 bagging 


法 的 预测 结果 取 平 均 ， 相 比 只 使 用 一 个 分 类 器 ， 可 和 角 


分 类 器 的 学 习 是 顺序 进行 的 ， 后 一 轮 分 类 器 的 
佬 学 习 的 方式 ， 达 到 了 利用 前 一 轮 分 类 误差 来 调整 后 轮 基 础 分 类 器 的 目的 ， 以 获得 更 好 的 分 类 性 能 。 


算法 ， 


8 会 得 到 更 好 的 分 类 模型 。 


些 训 练 数 据 集 得 到 多 个 基础 分 类 器 ， 最 后 组 合 基 础 分 类 器 的 分 类 结果 得 到 一 个 相对 更 优 的 预测 模型 。bagging 算 法 的 
是 该 算法 的 主要 缺点 。 
学 习 与 之 前 分 类 器 的 分 类 结果 有 关 ， 即 在 错 分 样本 基础 上 学 习 。boosting 算 法 通过 这 样 一 种 


出 的 少 


量 的 产生 都 有 相当 大 的 随机 性 。 如 果 是 分 类 问题 ， 则 输出 为 所 有 树 中 预测 概率 总 和 最 大 的 那个 类 ， 如 果 是 回归 问题 ， 则 输出 为 所 有 树 的 输出 平均 


adabag 包 提供 了 Breiman bagging 算 法 ; 对 于 boosting 算 法 ，adabag 包 实现 了 Ada-Boost.M1 和 SAMME 两 


算法 。R 的 randomForest 包 中 的 randomForest 函 数 实 现 随机 森林 算法 ， 并 提供 了 importance 和 varlmpPlot 两 个 函数 用 来 评估 每 个 属性 的 重要 性 ， 其 中 importance 函 数 以 列表 展示 模型 中 每 个 属性 的 重 


要 性 ，varlImpPlot 函 数 可 以 通过 


` bagging () 函 才 


会 制 平均 精确 率 下 降 及 平均 基尼 下 降 曲 线 实 现 属性 重要 性 的 可 视 化 。 


bagging (formula, data, mfinal = 100, control) 


其 中 ，formula 为 用 于 建 模 的 公式 ;data 为 待定 训练 数据 集 ; mfina| 为 算法 的 迭代 次 数 ， 即 基 分 类 器 的 个 数 ， 默 认 值 为 100; control 与 rpart () 函数 中 的 相同 ， 用 于 控制 基 分 类 器 的 参数 。 


boosting () 函数 


boosting (formula, data, boos = TRUE, mfinal = 100, coeflearn = 'Breiman', 
CONntEol, =“") 


其 中 ，formula 为 用 于 建 模 的 公式 ; data 为 待定 训练 数据 集 ; mfinal 为 算法 的 迭代 次 数 ， 
即 基 分 类 器 的 个 数 ， 默 认 值 为 100; coeflearn 为 选择 权重 更 新 系数 alpha 的 计算 方式 ， 


默认 为 Breiman， 即 alpha=1/2ln ( (1-err) /err) ; control 与 rpart () 函数 中 的 相同 ， 用 于 控制 基 分 类 器 的 参数 。 


. randomForest () 函数 


randomForest (formula, data=NULL, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/..., subset, na.action=na.fail) 


其 中 ，formula 为 用 于 建 模 的 公式 ; data 为 待定 训练 数据 集 ; subset 为 指定 一 个 子 集 的 观测 值 用 于 建 模 ; na.action 为 缺失 值 处 理 方式 ， 默 认 是 na.fail。 


接 下 来 ， 利 用 集成 学 习 及 随机 森林 算法 对 carTR 数 据 集 建立 分 类 模型 ， 并 利用 构建 的 模型 预测 carTR、carTE 数 据 集 


> # 使 用 adabag 包 中 的 bagging 吕 数 实现 Dagging 算 法 
> library (adabag) 
> bagging.model <- bagging (accept~.,data=carTR) 
> # 使 用 adabag 包 中 的 boosting 阴 数 实现 boosting 算 法 
> boosting.model <- boosting (accept~.,data=carTR) 
> 站 侍 用 randamForest 包 市 前 Candemorest 划 对 二 机 随和 村 状 间 二 
> library (randomForest) 
> randomForest.model <- randomForest (accept~.,data=carTR) 
> ## 预测 结果 ， 并 构建 混 消 给 阵 ， 查看 准确 率 
> # 构建 result， 存 放 预 测 结果 
> result <- data.frame (arithmetic=c ("bagging", "boosting", "随机 森林 ")， 
十 errTR=rep (0, 3) ,errTE=rep (0, 3) ) 
> for( in 1:3)1 
+ ”# 预测 结果 
CarTR predict <- predict (Switch (i,bagging.model,boosting.model,randomForest .model), 
newdata=carTR) # 训练 集 数据 
CarTE predict <- predict (Switch (i,bagging.model,boosting.model,randomForest.model), 
newdata=carTE) # 测试 集 数据 
# 构建 混淆 矩阵 
tableTR <- table (actual=carTR$accept, 
predict=switch (i,carTR predict$class,carTR predict$class,carTR predict)) 
tableTE <- table (actual=carTE$accept, 
predict=switch (i,carTE predict$class,carTE predict$class,carTE predict)) 
# 计算 误差 率 
result[i,2] <- paste0 (round( (sum(tableTR) -sum(dqiag (tableTR) ) ) *100/sum (tableTR) ， 
2) 7 ng) 
result[i,3] <- paste0 (round( (sum(tableTE) -sum(dqiag(tableTE) ) )*100/sum (tableTE) ， 
四 2) , von) 
+ } 
> # 查看 结 
> result 


arithmetic errTR errTE 
1 bagging 4.86% 6.03% 
2 boosting 0% 0.93% 
3 ”随机 森林 0.15% 2.78% 


从 上 面 的 结果 可 以 看 出 ， 最 适合 carTR 和 carTE 数 据 集 的 预测 模型 是 boosting 算 法 ， 其 中 对 训练 集 全 部 预测 正确 ， 对 测试 集 的 预测 错误 率 也 仪 有 不 到 1%。 
5. 人 工 神经 网 络 与 支持 向 量 机 


在 应 对 复杂 的 生产 数据 时 ， 人 工 神经 网 络 (Artificial Neural Network，ANN) 和 支持 向 量 机 (Support Vector Machine，SVM) 都 是 功能 强大 的 分 类 工具 ， 可 以 广泛 应 用 于 各 种 领域 。 与 前 述 
树 和 基于 概率 的 分 类 算法 不 同 ， 在 ANN 和 SVM 训练 中 ， 从 输入 数据 到 输出 结果 的 过 程 并 不 清晰 ， 也 难以 解释 ， 因 此 ， 这 两 种 算法 都 属于 黑箱 方法 。 


人 工 神经 网 络 对 一 组 输入 信号 和 一 组 输出 信号 之 间 的 关系 建 模 ， 使 用 的 模型 来 源 于 人 类 大 脑 对 来 自 感 党 输入 的 刺激 是 如 何 反应 的 理解 。 就 像 大 脑 使 用 一 个 称 为 神经 元 (neuron) 的 相互 连接 的 细胞 网 络 
来 创建 一 个 巨大 的 并 行 处 理 器 一 样 ， 人 工 神经 网 络 使 用 人 工 神经 元 或 者 节点 (node) 的 网 络 来 解决 学 习 问 题 。 从 广义 上 讲 ， 人 工 神经 网 络 是 可 以 应 用 于 几乎 所 有 学 习 任务 的 多 功能 学 习 方 法 : 分 类 、 数 值 预 
测 ， 甚 至 是 无 监督 的 模式 识别 。 人 工 神经 网 络 最 好 应 用 于 下 列 问 题 : 输入 数据 和 输出 数据 都 很 好 理解 或 者 至 少 相 对 简单 ， 但 其 涉及 从 输入 到 输出 的 过 程 是 极其 复杂 的 。 作 为 一 种 黑箱 方法 ， 对 于 这 些 类 型 的 
黑箱 问题 ， 它 们 运行 得 很 好 。 


支持 向 量 机 可 以 想象 成 一 个 平面 ， 该 平面 定义 了 各 个 数据 点 之 间 的 界限 ， 而 这 些 数据 点 代表 根据 它们 的 特征 绘制 多 维 空间 中 的 样本 。 支 持 向 量 机 的 目标 是 创建 一 个 称 为 一 个 超 平 面 (hyperplane) 的 平 
面 边 界 ， 它 使 得 任何 一 边 的 数据 划分 都 是 相当 均匀 的 。 支 持 向 量 机 几乎 可 以 适用 于 所 有 的 学 习 任务 ， 包 括 分 类 和 数值 预测 两 个 方面 。 


R 语 言 中 的 nnet 包 用 来 建立 单 隐藏 层 的 前 饥 人 工 神经 网 络 模型 ， 以 及 建立 多 项 对 数 线性 模型 。 在 R 语 言 中 ， 可 以 用 e1071 软 件 包 的 svm () 函数 来 建立 支持 向 量 机 的 基础 模型 ， 并 且 辅 助 使 用 predict () 
函数 及 fitted () 函数 来 利用 所 建立 的 模型 进行 分 类 ; 另 一 个 kernlab 包 则 包含 了 更 多 的 核 方 法 函数 ，ksvm () 函数 使 用 高 斯 RBF 核 阔 数 ， 也 提供 了 一 些 其 他 的 选项 


nnet (formula, data, weights, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/..., subset, na.action, contrasts = NULL) 


其 中 ，formula 为 用 于 建 模 的 公式 ; data 为 待定 训练 数据 集 ; weights 为 各 类 样本 在 模型 中 所 占 的 权重 ,该 参数 的 默认 值 为 1， 即 以 各 类 样本 原始 比例 建立 模型 ;，subset 为 指定 一 个 子 集 的 观测 值 用 于 建 


模 ; na.action 为 缺失 值 处 理 方式 ， 默 认为 na.fail。 


~ 


ksvm(target~ predictors, data=mydata, kernel="rbfdot", c=1) 


其 中 ，target 为 数据 框 mydata 中 需要 建 模 的 因 变 量 ; predictors 为 数据 框 mydata 中 的 自 变量 ; data 为 建 模 数据 框 ; kernel 给 出 一 个 非 线 性 映射 (mapping) ， 如 "rbfdot”( 径 向 基 阅 


数 ) ， "polydot” (多项式 函数 ) ，"tanhdot”( 双 曲 正切 函数 ) ，"vanilladot” (线性 函数 ) ; “用 于 给 出 违反 约束 条 件 时 的 惩罚 ， 即 对 于 “ 软 边界 ”的 惩罚 大 小 ， 较 大 的 c 值 将 导致 较 窒 的 边界 


— 


接 下 来 ， 利 用 人 工 神经 网 络 及 支持 向 量 机 算法 对 carTR 数 据 集 建立 分 类 模型 ， 并 利用 构建 的 模型 预测 carTR、carTE 数 据 集 


# 使 用 nnet 包 中 的 nnet 函 数 建立 人 工 神经 网 络 模型 

library (nnet) 

# 隐藏 层 有 3 个 节点 ， 初 始 随机 权 值 在 [-0.1;0.1]， 权 值 是 逐渐 衰减 的 ,最 大 迭代 数 是 200 

nnet .modqe1l <- nnet (accept~.,data=carTR,size=3,rang=0.1,decay=5e-4,maxit=200) 
# 使 用 kernlab 包 中 的 ksvm 骂 数 建立 支持 向 量 机 模型 

library (kernlab) 

# 使 用 rbfdot 选 项 制定 径 向 基 核 函数 


VVVvVvVvVvVvVvVvV 


> svm.model <- ksvm(accept~.,data=carTR, kernel="rbfdot") 

> # 利用 模型 预测 结果 

> # 构建 混淆 纶 阵 

> nnet.t0 <- table (carTR$accept,predict (nnet.model, carTR,type="class")) 

> nnet.t <- table (carTE$accept,predict (nnet.model,carTE,type="class")) 

> svm.t0 <- table (carTR$accept,predict (svm.model, carTR, type="response")) 

> svm.t <- table (carTE$accept,predict (svm.model, carTE, type="response")) 

> # 查看 各 自 错误 率 

> nnet .err0 <- Paste0 (found ( (sum (nnet.t0) -sum(dqiag (nnet.t0)))*100/sum(nnet.t0), 
开本 2) RS 

> nnet.err <- paste0 (round( (Sum (nnet .tt) -sum(dqiadg (nnet.t) ) )*x100/sum (nnet.t), 
下 2 .uy 

> svm.err0 <- paste0 (round( (sum(svm.t0)-sum(diag (svm.t0)))*100/sum (svm.t0), 
本 可 2 村 ) 

> svm.err <- paste0 (round( (sum(svm.t)-sum(diag (svm.t)))*100/sum(svm.t), 

2 

> nnet.errO;nnet .err; svm.err0; svm.err 

[1] "1.77%" 

[1] "1 .86%" 

[1] “3,39%" 

[1] "5.1%" 


从 预测 结果 来 看 ， 人 工 神经 网 络 的 效果 要 优 于 支持 向 量 机 。 
6. 模 型 评估 


为 了 确保 模型 能 够 正确 预测 未 知 对 象 ， 需 要 评估 模型 性 能 ， 避 免 模型 出 现 可 能 人 存在 的 过 拟 合 问题 。 可 以 利用 包括 caret、rminer 和 rocr 这 类 算法 包 来 评估 模型 性 能 以 防止 过 拟 合 问题 。 进 一 步 评估 模型 性 
能 还 有 助 于 得 到 更 优 、 健 壮 性 的 模型 ， 以 便 准 确 预 测 未 知 数据 。 在 数据 挖掘 过 程 中 ， 每 个 模型 和 算法 具有 不 同 的 适用 场景 ， 但 最 终 评 价 的 结果 一 定 是 以 业务 价值 为 导向 ， 而 非 模 型 自身 的 评价 指标 ， 因 此 ， 
在 选取 模型 时 ， 将 更 多 地 采取 一 些 机 器 学 习 算 法 。 


k 折 交叉 验证 技术 能 够 解决 过 拟 合 问题 ， 因 此 被 广泛 应 用 于 分 类 器 性 能 评估 领域 。 它 是 一 种 统计 学 上 将 数据 样本 切割 成 较 小 子 集 的 实用 方法 ， 目 的 是 得 到 可 靠 稳定 的 模型 。 先 在 一 个 子 集 上 分 析 ， 其 他 子 
集 则 用 来 确认 及 验证 分 析 。 初 始 子 集 被 称 为 训练 集 ， 剩 余 的 子 集 被 称 为 验证 集 。 重 复 执行 完 n 次 k 折 交叉 验证 后 ， 就 能 够 根据 n 次 检验 的 平均 正确 率真 实 评估 模型 性 能 。 


这 里 以 准确 率 为 度量 指标 ， 将 car 数 据 集 分 成 10 份 ， 利 用 决策 树 算 法 构建 分 类 器 ， 并 最 终 查 看 平均 准确 率 。 


# 构建 10 折 交叉 验证 
# 下 面 构造 10 折 下 标 集 
library (caret) 
ind<-createFolds (car$accept, k=10, 1ist=FALSE, returnTrain=FALSE) 
# 下 面 再 做 10 折 交叉 验证 ， 这 里 仅 给 出 训练 集 和 测试 集 的 分 类 平均 误 判 率 
EO0=rep (0, 10) ;El1=EO 
library (C50) 
for(i in 1:10)1{ 

nO0=nrow (car) -nrow (car [ind==i, ] ) ;nl1l=nrow (car [ind==i, |]) 

a=C5 .0 (accept~.,car[!ingd==i, ]) 
E0[i]=sum(car[!ingd==i, 'accept"'] !=predict (a,car[!ind==i,]))/n0 
El[i]=sum(car[ingd==i, 'accept'] !=predict (a, car[ingd==i, ]))/nl 


MYVMYMMYMMYMMYMMYMYV 


a 
> (1-mean (E0)); (1-mean (El1)) 
[1] 0.9877829 
[1] 0.9727981 


可 见 ， 经 过 10 折 交叉 验证 后 ， 模 型 的 预测 准确 率 也 有 所 提升 ， 比 之 前 的 C5.0 算 法 准确 率 提升 1% 左 右 。 


手工 编写 交叉 验证 略微 麻烦 ， 也 可 以 使 用 caret 包 的 train 函 数 来 建 模 并 自动 实施 10 折 交叉 验证 。 首 先 ， 设 置 训练 控制 参数 ， 进 行 重复 3 次 的 10 折 区 叉 验 证 。 


> library (caret) 
> control <- trainControl (method="repeatedcv",number=10, repeats=3) 


调用 rpart 处 理 car 数 据 集 产生 分 类 模型 。 


> library (caret) 

> control <- trainControl (method="repeatedcv",number=10, repeats=3) 
> model <- train(accept~.,data=car,method="rpart", 

烛 trControl=control) 


> model 
CART 
1728 samples 
6 predictor 
4 classes: 'acc', ‘'good', 'unacc', 'vgood' 
No pre-processing 
Resampling: Cross-Validated (10 fold, repeated 3 times) 
Summary of sample sizes: 1556, 1556, 1554, 1555, 1555, 1555, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 
Resampling results across tuning parameters: 
cp Accuracy Kappa 
0.04633205 0.7802949 0.5310309 
0.05598456 0.7756762 0.5484961 
0.07528958 0.7453673 0.3379084 
Accuracy was used to select the optimal model using the largest value. 
The final value used for the model was cp = 0.04633205. 
> plot (model) 


先 使 用 trainControl 设 置 检验 的 控制 参数 ， 确 定 为 10 折 交叉 验证 ， 反 复 进行 3 次 ， 目 的 是 减少 模型 评价 的 不 稳定 性 ， 这 样 得 到 30 次 检验 结果 。 训 | 练 过 程 完成 后 ， 模 型 将 输出 3 次 重新 采用 的 结果 ， 其 
cp 值 为 0.04633205 的 模型 准确 率 最 高 (0.7802949) ， 因 此 被 确定 为 分 类 最 优 模型 。 利 用 plot 消 数 绘制 的 图 8-12 也 可 以 直观 选择 参数 。 


于 


此 外 ， 混 淆 矩阵 和 ROC 曲 线 也 常用 来 评估 模型 的 预测 能 力 。 如 果 要 评估 分 类 模型 的 性 能 ， 可 以 首先 基于 预测 结果 和 实际 分 类 结果 产生 一 个 分 类 表 ， 然 后 基于 混淆 矩阵 来 获取 诸如 模型 的 精确 度 、 召 回 
率 、 特 异性 以 及 准确 率 等 性 能 指标 。 前 文 已 经 使 用 了 table 函 数 生成 混淆 矩阵 。 受 试 者 工作 特征 曲线 (Receiver Operating Characteristic，ROC) 是 一 种 常见 的 二 元 分 类 系统 性 能 展示 的 图 形 ， 在 曲线 上 分 
别 标注 了 不 同 切 点 的 真正 率 以 及 假 正 率 。ROC 曲 线 来 源 于 信号 检测 理论 ， 它 显示 了 给 定 模型 的 灵敏 性 (sensitivity) 真正 率 与 假 正 率 (false positive rate) 之 间 的 比较 评定 。 给 定 一 个 二 元 分 类 问题 ， 通 过 
对 测试 数据 集 的 不 同 部 分 显示 的 模型 可 以 正确 识别 “1” 实 例 的 比例 与 模型 将 “0” 实 例 错误 地 识别 为 “1” 的 比例 进行 分 析 ， 来 评定 不 同 模型 的 准确 率 。 真 正 率 的 增加 是 以 假 正 率 的 增加 为 代价 的 ，ROC 曲 
线 下 面 的 面积 (Area Under Curve，AUC) 就 是 比较 模型 准确 度 的 指标 和 依据 。 面 积 大 的 模型 对 应 的 模型 准确 度 要 高 ， 也 就 是 要 择优 应 用 的 模型 。 面 积 越 接近 0.5， 对 应 模型 的 准确 率 就 越 低 。 
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0.045 0.050 0.055 0.060 0.065 0.070 0.075 
Complexity Parameter 
图 8-12 ”使 用 交叉 验证 来 选择 参数 
8.3.2 ”活路 用 户 流失 预测 
1. 数 据 准 备 
仍 以 棋牌 类 游戏 为 例 ， 影 响 活跃 用 户 流失 的 普遍 判断 有 : 在 线 活跃 、 用 户 账号 属性 (性 别 、 好 友 数 、 等 级 、 积 分 等 ) 和 玩 牌 情况 ( 玩 牌 局 数 、 赢 牌 局 数 、 输 牌 局 数 、 最 高 牌 型 等 ) 。 详 细 指 标 如 下 : 


" 用户 id 


“ 站 内 好 友 数 
. 等 级 

“ 积分 

“ 玩 牌 局 数 

` 说 有 牌 局 数 


` 输 牌 局 数 


可 以 在 现 有 指标 基础 上 再 进行 丰富 ， 如 增加 周 活跃 度 和 玩 牌 胜率 等 衍生 指标 。 周 活跃 度 = 登录 总 次 数 /7; 玩 牌 胜率 = 赢 牌 局 数 / 玩 牌 局 数 。 现 在 从 数据 库 导出 某 一 周 用 户 的 基本 指标 数据 ， 先 将 数据 导入 
R 语 言 中 ， 并 增加 衍生 字段 。 


> w <- read.csv(" le CSV") 划 导入 数据 
> w <- WwW[,-1LI] # 剔除 用 
> w$ 活 跃 度 <- round (WS 性 录 冯 次 数 /7,3) # 增 加 活跃 度 字 段 

> w$ 玩 牌 胜率 <- round ee # 增加 玩 牌 胜率 字段 


日 


接 下 来 ， 先 对 玩家 数据 进行 探索 ， 分 析 用 户 流失 与 其 他 变量 之 间 是 否 有 关系 。 由 于 是 否 流失 字段 是 因子 型 变量 ，cor 国 数 只 能 对 数值 型 变量 求 相关 系数 ， 故 利用 前 面 介 绍 的 dummyVars () 函数 处 理 哑 
变量 后 再 进行 相关 性 分 析 ， 并 可 视 化 展示 相关 系数 ， 如 图 8-13 所 示 。 
> # 对 数据 进行 哑 变 量 处 理 ， 进 行 相关 性 分 析 


> library (caret) 载 入 需要 的 程 辑 包 : oe ggplot2 
> dmy <- dummyVars (~.,data=w) # 构建 哑 变 


> trsf <- data.frame re ea # 对 数据 进行 虚拟 化 处 理 

> M <- round (cor (tr Ff[,c -2) ] ) ,3) ## 进行 相关 性 分 析 

> M 人 性别 .男性 别 . 女 登 录 总 MN I 否 -0.019 0.019 0.779 0.112 0.547 0.405 0.306 0.305 是 否 流 失 . 是 0.019 -0.019 -0.779 
> library (corrplot) 

> corrplot (M,method="ellipse",col = c("green", "black")) # 对 相关 系数 进行 可 视 化 
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图 8-13 中 的 椭圆 表示 变量 两 两 间 的 相关 系数 值 ， 其 中 椭圆 的 颜色 代表 正 负 ， 绿 色 表 示 负 相关 ， 黑 色 表 色 正 相关 ; 椭圆 的 形状 表示 相关 系数 值 的 大 小 ， 椭 圆 越 扁 说 明 相 关系 数值 越 大 。 从 图 8-12 可 以 看 
出 ， 性 别 对 用 户 是 否 流失 几乎 没有 什么 影响 ， 但 是 登录 总 次 数 和 活跃 度 变量 对 用 户 是 否 流 失 有 强 相 关 性 ， 说 明 这 两 个 变量 是 影响 玩家 流失 的 主要 因素 。 


图 8-13 ”相关 系数 图 


可 以 利用 随机 森林 模型 中 的 varImpPlot () 函数 查看 每 个 属性 的 重要 性 ， 如 图 8-14 所 示 。 


> model <- randomForest (是 否 流 失 ~., data=w, importance=TRUE) # 建立 随 ov 
> varImpPlot (model,main="Variable Importance Random Forest") # 查看 变量 重 


Variable Importance Random Forest 
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积分 
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站 内 好 友 数 
非 正 常 牌 局 
性 别 
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MeanDecreaseAccuracy MeanDecreaseGini 
图 8-14 利用 随机 森林 查看 变量 重要 性 


MeanDecreaseAccuracy 是 从 精确 度 来 衡量 变量 重要 性 ，MeanDecreaseGini 则 是 从 Gini 指 数 来 衡量 变量 重要 性 。 变 量 重要 性 由 高 到 低 从 上 到 下 排序 。 可 见 ， 玩 家 的 登录 总 次 数 、 活 跃 度 和 积分 等 变量 
是 决定 活跃 用 户 是 否 流 失 的 重要 因素 ， 与 通过 相关 性 分 析 得 出 的 结论 一 致 。 


最 后 按照 是 否 流 失 变量 进行 等 比例 随机 抽样 ， 将 75% 的 数据 作为 训练 集训 练 模型 ， 另 外 25% 的 数据 作为 测试 集 用 来 验证 模型 效果 。 


> library (caret) 


> ## 构建 训练 集 的 下 标 集 

> ind <- createDataPartition (w$ 是 否 流 失 , times=1,p=0.75,1ist=FALSE 
> # 构建 测试 集 数据 及 训练 集 数 据 
> 
> 


ar 


traindata<- wling,] 
testdata<- wl[-ing,] 


2. 数 据 建 模 


前 面 已 经 做 完 建 模 前 的 数据 准备 工作 ， 接 下 来 就 可 以 进行 数据 建 模 了 。 在 建 模 之 前 ， 也 可 以 利用 10 折 交叉 验证 方法 来 对 参数 进行 最 优选 择 ， 此 处 以 决策 树 、 随 机 森林 和 人 工 神经 网 络 算法 的 参数 选择 为 


> # 利用 10 折 交叉 验证 来 选择 最 优 参数 
> control <- trainControl (method="repeatedcv",number=10, repeats=3) 
> rpart.model <- train (有 是否 流 失 ~.,data=w,method="rpart", 

+ trControl=control) 
> rf.model <- train (是 否 流 失 ~., data=w,method="rf",， 
十 
> 
十 
> 
> 


trControl=control) 
nnet.model <- train (有 是否 流 失 ~.,data=w,method="nnet", 
trControl=control) 


# 查看 模型 结果 

rpart .model:.……:: 
Accuracy was used to select the optimal model using the largest value. 
The final value used for the model was cp = 0.0137457. 
站 人 OO] 
Accuracy was used to select the optimal model using the largest Value . 
The final value used for the model was mtry = 2. 
> nnet .model.…: 
Accuracy was used to select the optimal model using the largest value. 
The final values used for the model were size = 1 and decay = 0.1. 


测试 集 数据 ， 通 过 混淆 矩阵 查看 错误 率 ， 找 出 最 优 模型 对 其 他 样本 进行 活跃 流失 预测 。 


小 一 


最 后 ， 根 据 找 出 的 最 优 参数 利用 算法 建立 不 同 的 分 类 器 ， 并 预测 训 


> # 利用 决策 树 、 随 机 森林 、 人 工 神 经 网 络 构建 分 类 器 ， 并 查看 预测 错误 率 
># 有 用 4 数 建立 分 类 树 
> rpart.model <- rpart::rpart (有 是否 流 失 ~.,data=traindata,control= (cp=0.0137457)) 
> # 利用 randomForest 画 数 建立 随机 森林 
> rf.model <- randomForest::randomForest (是 否 流 失 ~.,data=traindata,mtry=2) 
> # 利用 nnet 函 数 建立 人 工 神 经 网 络 
> nnet.model <- ne ey nn (pe aa nd = 1,decay = 0.1) 
> # 构建 result， 存 放 预 测 结 果 
> result <- data.frame (arithmetic=c ("决策 树 ", "随机 森林 ", "人 工 神 经 网 络 ")， 
十 errTR=rep (0, 3) ,errTE=rep (0, 3) ) 
> for(i in 1:3)1{ 
+  ”# 预测 结果 
+ traindata predict <- predict (Switch (i,rpart.model,rf.model,nnet.model), 
十 newdata=traindata,type="class") # 对 训练 集 数 据 预测 
+ testdata predict <- predict (Switch (i,rpart.model,rf.model,nnet.model), 
+ newdata=testdata,type="class") # 对 测试 集 数据 预测 
十 # 构建 混淆 矩阵 
十 tableTR <- table (actual=traindata$ 是 否 流 失 , traindata predict) 
tableTE <- table (actual=testdata$ 是 否 流 失 , testdata predict) 


十 
+ ”# 计算 误差 率 


十 result[i,2] <- paste0 (round( (sum (tableTR) -sum(dqiag (tableTR) ) )*100/sum (tableTR) ， 
十 2 区 2 

+ result[i,3] <- paste0 (round( (sum(tableTE)-sum(diag (tableTE)))*100/sum(tableTE), 
十 2) 7 ST) 

站 ;| 

> # 查看 结果 

> result 


arithmeticerrTR errTE 
1 决策 树 ” 5.49% 8.9% 
2 随机 森林 0.1% 7.06% 
3 人 工 神经 网 络 6 .92% 9 


测试 集 的 预测 错误 率 可 以 看 出 ， 随 机 森林 对 于 活跃 用 户 流失 预测 效果 最 优 ， 但 随机 森林 的 训练 集 误 差 很 小 ， 而 测试 集 误差 相对 较 大 ， 有 人 以 为 有 过 拟 合 。 接 下 来 ， 用 不 同 数目 (1~500 棵 ) 
东 集合 测试 集 的 预测 误差 率 图 ， 研 究 误差 率 的 走势 。 执 行 以 下 代码 得 到 的 结果 如 图 8-15 所 示 。 


从 训 = 小 二 
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NMSE = NMSEO <- rep (0,n) 

for(i in 1:n)f{ 

a <- randomForest (是 否 流 失 ~.,data=traindata,ntree=i) 
y0 <- predict (a,traindata) 

yl <- predict (a,testdata 
NMSE0[i] <- sum(traindata[, ' 是 否 流 失 '] !=y0) /nrow (traindata) 
NMSE[i] <- sum(testdata[, ' 是 否 流失 '] !=y1) /nrow (testdata) 


sa 


} 

plot (1:n,NMSE,type="1", ylim=c (min (NMSE, NMSE0) ,max (NMSE, NMSE0) ) ， 
Xlab=" 树 的 数目 ", ylab=" 误 差 率 ", lty=2) 

lines (1:n,NMSEO) 

legend ("topright",1ty=1:2,c(" 训 练 集 ", "测试 集 ")) 
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图 8-15 不 同 数目 树 的 随机 森林 对 训练 集 和 测试 集 的 误差 率 影响 


从 图 8-15 可 知 ， 随 着 树 的 数目 的 增长 ， 随 机 森林 训练 集 和 测试 集 的 误差 率 都 稳定 地 下 降 ， 而 且 最 终 稳 定 在 各 自 的 水 平 上 。 实 际 上 ， 只 要 测试 集 的 误差 不 随 着 模型 的 发 磺 星 增加 而 增长 就 不 是 过 拟 合 ， 这 
里 的 计算 过 程 还 没有 出 现 过 拟 合 现象 。 可 以 选择 随机 森林 作为 预测 模型 对 其 他 用 户 进行 预测 。 运 营 可 以 根据 预测 结果 对 用 户 执行 挽留 策略 ， 延 长 用 户 在 游戏 中 的 生命 周期 。 


8.4 人 小结 


本 章 首先 简单 介绍 了 留存 率 的 计算 及 预测 方式 ， 然 后 介绍 了 各 种 常见 的 分 类 算法 基本 原理 及 R 语 言 实 现 ， 并 通过 K 折 交叉 验证 、 混 淆 矩阵 和 ROC 曲 线 寻 找 最 优 模型 ;最 后 通过 一 个 活跃 用 户 流失 预测 的 案 
例 进 行 算法 最 优 参数 选择 ， 算 法 模型 的 建立 及 评估 等 工作 。 


第 9 草 ”用户 分 析 


传统 行业 一 直 都 崇尚 “用 户 至 上 ” “用户 中 心 论 ” 的 理念 ， 如 今 此 理念 在 手 游 领 域 同样 适用 。 随 着 对 用 户 了 解 的 不 断 加 深 ,很 多 公司 开始 认识 到 自身 的 想法 和 用 户 的 预期 往往 存在 差距 ， 提 供 的 游戏 功 
能 和 服务 有 时 并 不 是 用 户 真 正 想 要 的 。 于 是 ， 基 于 用 户 的 分 析 研 究 显得 越发 重要 。 


目前 针对 手 游玩 家 的 分 析 主 要 集中 在 三 个 方面 ， 如 图 9-1 所 示 。 


用 户 统计 监控 


“主要 分 析 各 类 用 户 数 
据 的 变化 情况 ， 营 握 
游戏 在 吸引 用 户 和 保 
留用 户 等 方面 的 能 力 


* 通过 问卷 方法 了 解 
用 户 的 需求 、 建 议 
和 满意 度 ， 进 而 提 
升 游戏 的 用 户 体验 


用 户 调研 


* 通过 分 析 不 同 用 户 的 
行为 来 指导 运营 区 分 
用 户 群 体 的 营销 


用 户 精准 营销 


图 9-1 针对 手 游玩 家 进行 分 析 的 三 个 方面 


用 户 调 研 中 的 方法 不 在 本 书 的 研究 范围 ， 感 兴趣 的 读者 可 以 查找 其 他 相关 资料 。 本 章 主要 介绍 用 户 统计 监控 和 用 户 精准 营销 这 两 方面 的 内 容 。 


9.1 用 户 分 类 

在 游戏 数据 分 析 中 ， 根 据 用 户 的 基本 信息 和 行为 特征 可 以 将 用 户 分 为 许多 类 别 ， 衍 生出 各 种 各 样 的 用 户 指标 。 用 户 总 体 的 统计 可 以 让 我 们 明确 用 户 的 整体 变化 情况 ; 用 户 各 分 类 的 统计 分 析 ， 可 以 让 我 
们 看 到 用 户 每 个 细 分 群体 的 变化 情况 ， 进 而 掌握 游戏 用 户 的 全 面 情况 。 

某 些 分 类 对 于 游戏 用 户 的 现状 和 发 展 趋势 具有 特殊 意义 ， 可 以 重点 对 这 些 用 户 分 类 进行 更 加 具体 的 分 析 和 研究 ， 而 首先 要 做 的 是 清晰 地 定义 这 些 用 户 的 分 类 规则 和 用 户 指标 。 


随 着 游戏 分 析 的 不 断 发 展 ， 对 用 户 的 分 析 也 越 来 越 广泛 ， 根 据 用 户 的 行为 表现 可 以 定义 很 多 相关 指标 ， 如 新 增 用 户 、 活 跃 用 户 、 有 效用 户 、 流 失 用 户 、 留 存 用 户 、 僵 尸 用 户 等 。 
9.1.1 新 老 用 户 


新 增 用 户 指 的 是 第 一 次 登录 游戏 的 用 户 ， 那 么 非 首 次 登录 游戏 的 用 户 就 是 老 用 户 。 新 增 又 可 以 分 为 用 户 新 增 和 设备 新 增 ， 具 体 定义 如 下 。 

. 新 增 用 户 : 统计 所 选 时 期 内 ， 第 一 次 登录 游戏 的 用 户 数 ， 这 里 的 时 间 周 期 为 日 、 自 然 周 、 自 然 月 。( 注 : “新 增 ” 具有 唯一 性 ， 不 重复 累计 ) 

" 新 增设 备 : 统计 所 选 时 期 内 ， 玩 家 激活 游戏 ， 自 动 或 者 手动 注册 后 ， 有 ID 信息 或 者 账户 信息 的 玩家 设备 数量 ， 每 台 设 备 只 计算 一 次 ， 这 里 的 时 间 周 期 为 : 日 、 自 然 周 、 自 然 月 。 
` 设备 新 增 /用 户 新 增 : 统计 所 选 时 期 内 ， 新 增设 备 占 新 增 用 户 数 的 比值 ， 这 里 的 时 间 周 期 为 : 日 、 自 然 周 、 自 然 月 。 该 指标 可 反映 游戏 是 否 有 小 号 现象 及 小 号 现象 是 否 严 重 。 


某 款 游戏 在 8 月 每 日 的 新 增 用 户 和 新 增设 备 走 势 情况 如 图 9-2 所 示 。 
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图 9-2 ”新 增 用 户 每 日 走势 图 
从 走势 图 可 以 得 出 ， 日 设备 新 增 和 日 用 户 新 增 的 走势 基本 一 致 ， 说 明 这 款 游戏 的 用 户 质量 相对 较 好 ， 不 存在 小 号 现象 
也 可 查看 统计 所 选 时 期 内 ， 玩 家 新 增 的 TOP5 员 牌 设备 分 布 情况 ， 如 图 9-3 所 示 。 


可 见 ， 新 增设 备 的 品牌 中 ， 排 前 三 的 分 别 是 OPPO、Xiaomi 和 vivo 手 机 。 
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图 9-3 ”设备 品牌 新 增 统计 
9.1.2 “活跃 用 户 
基于 新 老 用 户 的 分 析 是 为 了 让 游戏 更 好 地 保留 老 用 户 、 发 握 新 用 户 。 通 过 分 析 游 戏 的 活跃 用 户 则 可 以 洞悉 游戏 当前 真实 的 运营 状况 。 该 指标 具有 重要 意义 ， 可 以 说 明 游 戏 核心 用 户 的 规模 。 
活跃 用 户 (active user) 是 指 统计 所 选 时 期 内 ， 登 录 游 戏 的 用 户 。 这 里 的 时 间 周 期 为 日 (DAU) 、 自 然 周 (WAU) 、 自 然 月 (MAU) 。 ( 注 : “活跃 ”具有 唯一 性 ， 不 重复 票 计 。 ) 


图 9-4 是 某 款 游 戏 从 8 月 至 今 的 DAU 走 势 图 。 
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图 9-4 DAU 走 势 图 
由 图 9-4 可 见 ， 随 着 暑假 效应 的 结束 ，9 月 份 的 DAU 呈 现下 降 趋势 。 
DAU 由 DNU (Daily New User) 和 DOU (Daily Old User) 两 部 分 构成 ， 如 图 9-5 所 示 。 


DNU: 每 日 注册 并 登录 游戏 的 用 户 数 ， 即 日 新 增 用 户 数 。 新 增 用 户 具 有 唯一 性 ， 不 重复 累计 。 该 指标 可 以 查看 渠道 贡献 新 用 户 数 份额 情况 ， 以 及 宏观 走势 ， 判 断 是 否 需要 投放 推广 ， 是 否 存在 渠道 作弊 


DNU/DAU: 新 增 用 户 占 比 ， 也 可 称 为 活跃 度 指数 ， 其 中 DAU - DNU 为 老 用 户 数 ， 老 用 户 比例 越 多 ， 相 对 的 留存 质量 就 会 好 一 些 ， 游 戏 的 玩家 自 循环 系统 逐步 成 立 ， 推 广 期 间 的 大 部 分 玩家 在 次 日 之 后 
都 留 在 了 游戏 中 。 在 老 用 户 足够 多 的 情况 下 ，DNU 新 增 影响 是 有 限 的 ， 但 如 果 一 段 时 间 内 DNU 不 能 转化 为 老 用 户 ， 则 此 比值 会 不 断 提 升 。 


图 9-5 ”DNU 的 构成 


某 款 新 游戏 上 线 一 个 月 的 DAU 和 DNU 的 面积 图 如 图 9-6 所 示 。 
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图 9-6 ”DAU 与 DNU 面 积 图 


由 图 9-6 可 知 ， 游 戏 在 6 月 25 日 全 平台 上 线 ，6 月 份 属于 游戏 推广 时 期 ， 通 过 推广 得 到 大 量 的 用 户 ， 但 是 其 中 存在 大 量 不 稳定 用 户 ， 有 很 大 一 部 分 会 流失 ， 并 且 存 在 新 增 用 户 数 不 稳定 的 问题 ， 因 此 DAU 
和 DNU 的 数量 会 出 现 大 幅度 的 变化 。 随 着 推广 结束 ， 用 户 群 稳定 下 来 ， 也 就 是 7 月 份 ，DAU 和 DNU 变 得 平稳 。 在 游戏 推广 结束 以 后 ， 用 户 留存 质量 相对 较 好 ， 留 存 率 相对 较 高 ， 新 增 占 比 平均 为 15.4%， 新 
老 用 户 比例 没有 出 现 大 幅度 的 变化 。 


DNU/DAU 比 值 变 化 曲线 图 如 图 9-7 所 示 。 
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图 9-7 DNU/DAU 比 值 变 化 曲线 图 


在 图 9-7 中 ， 实 线 表 示 2016-06-25~2016-07-24 的 DNU/DAU 的 比值 曲线 ， 虚 线 表 示 DNU/DAU 均 值 。 可 见 ， 六 月 份 这 个 比例 波动 变化 很 明显 ， 而 且 比 值 很 高 ， 均 值 达 到 了 27.2%; 进入 7 月 份 后 比例 变 
化 平稳 ， 在 七 月 份 均值 15.4% 附 近 波动 。 


也 可 以 用 新 增 用 户 最 后 一 次 登录 日 期 距离 统计 日 的 间隔 天 数 来 考察 用 户 的 活跃 度 。 以 下 定义 了 几 个 不 同时 间 段 的 用 户 群 。 
` 僵尸 用 户 : 一 年 内 不 活跃 的 用 户 。 

. 年 活跃 用 户 : 最 近 一 年 内 活跃 的 用 户 ， 即 向 前 推算 12 个 自然 月 。 

. 半年 活跃 用 户 : 最 近 半 年 内 活跃 的 用 户 ， 即 向 前 推算 6 个 自然 月 。 


. 三 个 月 活路 用户 : 最 近 3 个 月 内 活跃 的 用 户 ， 即 向 前 推算 3 个 自然 月 。 


9.1.3 用户 习惯 


也 可 以 统计 分 析 活 跃 用 户 的 登录 次 数 、 使 用 时 长 ， 还 可 以 结合 付费 用 户 、 新 增 用 户 来 对 比分 析 登 录 次 数 、 在 线 使 用 时 长 。 


活跃 用 户 、 付 费用 户 和 新 增 用 户 在 8 月 每 日 的 登录 次 数 统计 如 图 9-8 所 示 。 三 个 用 户 群 在 8 月 的 每 日 在 线 时 长 统计 如 图 9-9 所 示 。 
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图 9-8 ”三 个 用 户 群 的 登录 次 数 统计 
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图 9-9 ”三 个 用 户 群 的 在 线 时 长 统计 


由 图 9-8 可 知 ， 活 跃 用 户 的 每 日 登录 次 数 多 于 新 增 用 户 的 登录 次 数 ， 但 是 低 于 付费 用 户 登录 次 数 。 由 图 9-9 得 出 的 结论 也 相似 ， 付 费用 户 平均 时 长 会 高 于 活跃 用户 ， 活 路 用 户 又 高 于 新 增 用 户 。 这 说 明 活 
路 用 户 中 的 DOU 质 量 优 于 DNU,， 活跃 用 户 中 的 付费 用 户 质量 又 优 于 其 他 用 户 。“ 登 录 次 数 ” 和 “在 线 时 长 ”两 个 指标 可 以 归 到 夭 性 的 分 类 ， 主 要 关注 用 户 在 一 段 时 间 内 持续 访问 和 进行 游戏 的 情况 。 


9.2 LTV 


在 游戏 各 项 指标 的 统计 中 ， 有 很 多 是 考察 玩家 质量 的 ， 尤 其 是 考察 新 用 户 的 质量 。 近 年 来 兴起 的 新 统计 指标 LTV 就 是 在 新 用 户 留存 分 析 的 基础 上 进一步 研究 每 个 用 户 的 质量 。LTV 的 主要 作用 有 以 下 几 


ATHY 


` 对 比 各 日 (或 各 批 次 ) 新 注册 用 户 的 质量 ， 为 日 后 导入 做 决策 依据 《所 有 会 影响 导入 用 户 质 量 的 因素 ， 如 导入 时 间 、 渠 道 、 地 域 等 ， 都 可 以 通过 LITV 评 估 ) 。 
` 通过 曲线 异常 分 析 游戏 问题 并 加 以 解决 ， 各 批 次 用 户 的 曲线 大 体 趋势 应 一 致 。 
` 观测 及 预 佑 用户 的 成 本 回收 情况 ， 如 难以 收回 成 本 则 考虑 回炉 大 改 或 放弃 。 


* 作为 控制 用 户 导 入 成 本 的 依据 。 
9.2.1 LTV 的 定义 


LTV (Lifetime Value) 直译 过 来 是 生命 周期 价值 ， 用 于 衡量 游戏 中 用 户 在 其 生命 周期 内 对 游戏 的 平均 贡献 值 。 这 里 生命 周期 是 指 新 增 用 户 在 给 定 的 自然 时 间 内 的 活跃 天 数 ， 主 要 受 留存 率 的 影响 。 用 户 
的 价值 主要 用 ARPU 来 衡量 。 如 果 能 估算 出 用 户 的 生命 周期 和 ARPU 值 ， 就 可 以 估算 出 某 个 自然 时 间 内 用 户 能 给 我 们 带 来 多 少 价值 。ARPU 是 指 平均 每 活跃 用 户 收 入 ， 即 统计 区 间 内 活路 用户 对 游戏 产生 的 平 
均 收 入 。 计 算 公 式 为 : 收入 /活跃 用 户 数 。 


LTV 的 计算 方法 并 不 唯一 ， 目 前 流行 的 主要 有 以 下 两 种 。 

1) 记录 某 一 天 新 增 用 户 从 注册 当天 起 ， 累 计 的 收入 (平均 值 ) 。 如 LTV-3 为 某 批 用 户 在 注册 起 第 三 天 的 累计 收入 (平均 值 ) 。 
2) LIV=LTxARPU: 公式 中 的 LT 是 指 Lift-Time 用 户 生命 周期 ，ARPU 是 指 每 个 活跃 用 户 的 付费 金额 。 

图 9-10 所 示 收 录 了 某 款 游 戏 7 月 的 每 日 新 增 用 户 在 未 来 30 天 内 每 天 付费 金额 数据 统计 (部 分 ) 。 


根据 统计 表 中 的 数据 可 知 ， 利 用 第 N 日 LTV = 第 N 日 累积 付费 金额 /当日 新 增 用 户 数 可 以 求 出 不 同时 期 的 LTV， 如 图 9-11 所 示 。 
9.2.2 LTV 的 预测 


前 面 讲 的 LTV 是 根据 已 知 的 留存 率 、 付 费 金 额 等 指标 计算 得 到 的 ， 属 于 事后 统计 LTV 值 。 有 时 候 ， 我 们 可 能 需要 了 解 在 未 来 一 段 时 间 内 的 用 户 生 命 周期 价值 (LTV) ， 通 过 对 比 LTV 与 CPA， 计 算 单个 用 


户 的 ROI， 进 一 步 辅助 市 场 广告 投放 决策 。 
3968 


4007| 3968 

138 

092| 1475 
3068 
51457 | 85751 2123 972 6859| 3869| 1325| 1903 7 
379 168 


_ 注 员 B 期 | 注册 当天 |*1I 日 [2 |*3 [6 [sa |+éB 


2015/7/1 | 0.38 0.57 0.78 0.87 0.94 0.99 1.05 1.11 1.28 
2015/7/2 0.44 0.61 0.83 0.93 0.99 1.05 1.12 1.16 1.34 


2015/7/3 0.38 0.56 
2015/7/4 0.38 0.56 
2015/7/5 0.41 


2015/7/6 0.49 0.6 


2 
0.68 

0.73 
069 

06 
| 066 
071 

| 058 

| 050 
0.67| 


107| 112 


上 
了 


0.63 0.7 

88| 0 

666 07 07 08 oa 
057| 078| 087| 094 

2015/7113 / 

2015/7114| 053| 078| 653 103| tl 119 

201517115] 047| 067| 080| 091| 100| 107 


图 9-11 新 增 用 户 的 LTV 
预测 LTV 常 用 的 方法 有 两 种 。 
1. 利 用 已 知 的 留存 率 和 ARPU 
利用 已 知 的 留存 率 和 ARPU 来 预测 未 来 LTV 的 具体 步骤 如 下 。 
1) 利用 指数 函数 预测 未 来 的 留存 率 。 
2) 计算 用 户 生命 周期 LT 值 : LT m) =R 0) +R Oo) +..+R mn) 。 


3) 计算 出 玩家 的 价值 ARPU， 由 于 玩家 不 同日 期 的 ARPU 值 可 能 不 同 ， 所 以 可 以 求 出 一 段 时间 内 每 日 APRU 值 的 平均 值 ， 例 如 取 玩 家 14 天 的 平均 ARPU， 即 ARPU = (ARPU (1) +ARPU (2) +...+ 
ARPU (14) ) /14。 


4) 计算 出 玩家 的 生命 周期 价值 LTV=LTxARPU= (R (1) +R (2) +...+R (n) ) xARPU。 


表 9-1 是 某 款 游戏 前 7 日 的 留存 率 和 ARPU 值 。 


表 9-1 某 游戏 前 7 日 的 留存 率 和 ARPU 值 


昌国 存 素 | 365% 244% 上 5 氏 存 率 | 13.5% 20% 
+3 留存 率 19.0% +4 留存 率 15.7% +7 留存 率 10.8% ARPU 0.32 


第 8 章 学 习 了 如 何 预测 留存 率 ， 这 里 不 再 袭 述 。 根 据 前 期 的 实际 留存 率 得 到 的 预测 曲线 方程 为 y = 0.3718x-0.6273。 根 据 方程 求 出 未 来 365 天 的 留存 率 值 ， 并 绘制 留存 率 预 测 曲线 ， 如 图 9-12 所 示 。 


留存 率 曲 线 图 
一 一 - 预测 久 存 率 ”一 一 实际 贸 存 率 
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图 9-12 ”实际 留存 率 和 预测 留存 率 曲线 
根据 留存 率 预测 值 ， 可 以 计算 出 不 同时 期 的 LT 值 ， 再 结合 ARPU ， 就 可 得 到 用 户 不 同时 期 的 LTV。 表 9-2 给 出 了 14 天 、21 天 、30 天 、60 天 和 180 天 的 LTV 预 测 值 


表 9-2 不 同时 期 的 LTV 值 


14 天 LTV (预测 值 ) ¥0.99 
21 天 LTV (预测 值 ) 21 天 LTV (实际 值 ) 至 二 ]] 
30 天 LTV (预测 值 ) za | 30 天 LTV (实际 值 ) 至 10 


2. 利 用 前 期 的 LTV 
利用 前 期 的 LTV 对 未 来 LTV 进 行 预测 的 基本 原理 是 : 对 某 日 新 用 户 的 总 收入 跟踪 时 ， 可 以 发 现 ， 随 着 时 间 的 增长 ， 收 入 增长 会 逐渐 放 缓 ， 可 以 想象 ， 在 未 来 足够 长 的 时 间 里 总 收入 会 趋 近 一 个 估 值 ， 这 个 
值 可 以 被 认为 是 某 日 新 用 户 的 总 生命 周期 价值 ， 当 然 也 可 以 很 容易 得 出 其 平均 生命 周期 价值 (LTV) 。 
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图 9-13 LIV 预测 曲线 


如 图 9-13 所 示 ， 和 总 收入 逐渐 逼近 某 个 值 ， 这 样 对 于 LTV， 可 以 近似 地 用 一 个 log 函 数 曲线 来 反映 LTV 变 化 趋势 ， 例 如 ， 用 以 下 函数 来 表示 : 


y=cxLN (x) +b 


现在 问题 


页 就 是 转化 为 求 出 函数 的 系数 c，b。 也 可 以 利用 Excel 轻 松 实现 。 


“c=INDEX (LINEST (Known Ys, LN (KnownXs) ) ，1) 


“b=INDEX (LINEST (Known Ys, LN (Known Xs) ) , 2) 


表 9-3 所 示 是 某 款 游戏 新 增 用 户 在 前 7 日 的 实际 LTV。 


表 9-3 某 游 戏 前 7 日 的 实际 LTV 


根据 上 面 的 公式 求 出 c= 0.214，b = 0.403， 因 此 LTV 的 预测 函数 为 y = 0.214xLN (x) + 0.403。 


9-14 所 示 是 实际 LTV 和 预测 LTV 曲 线 。 


LTV 曲线 图 
一 -预测 LTV ”一 一 实际 LTV 
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图 9-14 LIV 实 际 值 与 预测 曲线 


表 9-4 所 示 给 出 了 14 天 、21 天 、30 天 、60 天 和 180 天 的 LTV。 


表 9-4 利用 方法 二 求 出 的 不 同时 期 LTV 


14 天 LTV (预测 值 ) = 1 天 LIV 守 ”114 天 LTV (实际 值 ) Y¥0.99 


21 天 LTV (预测 值 ) Y1.05 21 天 LTV (实际 值 ) ¥1.1] 
30 天 LTV (预测 值 ) Y1.13 30 30 天 LTV (实际 值 ) | LTV (实际 值 ) Y1.20 
60 天 LTV (预测 值 ) 将 ] 2 


180 天 LTV (预测 值 ) 将 ] 5 | 


9.3 用户 物品 购买 关联 分 析 


天 联 规则 是 从 事务 数据 库 、 关 系数 据 库 和 其 他 信息 存储 中 的 大 量 数 据 项 集 之 间 发 现 有 趣 的 、 频 繁 出 现 的 模式 、 关 联 和 相关 性 。 更 确切 地 说 ， 关 联 规则 通过 量化 的 数字 描述 物品 甲 的 出 现 对 物品 乙 的 出 现 
有 多 大 的 影响 。 关 联 规则 模式 属于 描述 型 模式 ， 发 现 关联 规则 的 算法 属于 无 监督 学 习 的 方法 。 


关联 规则 分 析 也 称 为 购物 篮 分 析 ， 最 早 是 为 了 发 现 超市 销售 数据 库 中 不 同 商品 之 间 的 关联 关系 。 可 以 将 这 个 分 析 思 路 很 好 地 移植 到 游戏 的 道具 销售 分 析 中 。 例 如 ， 想 研究 一 款 游戏 的 用 户 购买 喜好 ， 
如 “ 哪 组 商品 可 能 会 在 一 次 购物 中 同时 购买 ? ”或 者 “ 某 用 户 购 买 了 5000 人 金币 的 道具 ， 那 么 该 用 户 在 以 后 一 段 时 间 里 购买 8000 金 币 的 概率 有 多 大 ?” ”我 们 可 能 发 现 购买 了 5000 人 金币 的 用 户 同 时 很 有 可 能 购 
买 了 8000 金 币 ， 这 就 导出 了 一 条 关联 规则 “5000 人 金币 = > 8000 金 币 ”， 其 中 5000 金 币 称 为 规则 的 前 项 ， 也 叫 左 项 或 条 件 项 ;8000 人 金币 则 称 为 后 项 ， 也 叫 右 项 或 结果 项 。 对 5000 人 金币 降低 售 价 进行 促销 ， 而 


适当 提高 


9.3.1 


8000 人 金币 的 售 价 ， 关 联 销售 的 8000 人 金币 就 有 可 能 增加 游戏 的 整体 收入 ;也 可 以 将 5000 金币 和 8000 人 金币 进行 捆绑 打折 销售 ， 通 过 提升 销量 的 方式 增加 游戏 收入 。 


常用 关联 规则 算法 


常见 的 关联 规则 算法 有 多 种 : Apriori 算 法 、FP- 树 频 集 算法 和 基于 划分 的 算法 等 ， 下 面 简单 介绍 这 三 种 算法 。 


1.Apriori 算 法 : 使 用 候选 项 集 找 频繁 项 集 


Apriori 算 法 是 最 常用 也 是 最 经 典 的 挖 所 频繁 项 集 的 算法 ， 其 核心 思想 是 通过 连接 产生 候选 项 及 其 支持 度 ， 然 后 通过 草 校 生成 频繁 项 集 ， 这 里 的 频繁 项 集 是 指 所 有 支持 度 大 于 等 于 给 定 最 小 支持 度 的 项 


集 。 


该 算法 的 主要 思想 是 找 出 存在 于 事务 数据 集中 最 大 的 频繁 项 集 ， 表 利用 得 到 的 最 大 频繁 项 集 与 预先 设 定 的 最 小 置信 和 度 阅 值 生成 强 关 联 规则 。 

(1) Apriori 的 性 质 

频繁 项 集 的 所 有 非 空子 集 也 必须 是 频繁 项 集 。 根 据 该 性 质 可 以 得 出 : 向 不 是 频繁 项 集 | 的 项 集中 添加 事务 A， 新 的 项 集 InA 一 定 也 不 是 频繁 项 集 。 
(2) Apriori 算 法 实现 的 两 个 过 程 


大 频繁 项 集 Lk。 


0 


1) 找 出 所 有 的 频繁 项 集 (支持 度 必 须 大 于 等 于 给 定 的 最 小 支持 度 阅 值 ) ， 在 这 个 过 程 中 ， 连 接 步 和 募 枝 步 互相 融合 ， 最 终 得 至 

连接 步 的 目的 是 找到 k 项 集 。 对 给 定 的 最 小 支持 度 阅 值 ， 分 别 对 1 项 候选 集 C1， 吻 除 小 于 该 赋值 的 项 集 得 到 1 项 频繁 项 集 L1; 下 一 步 由 L1 自 身 连接 产生 2 项 候选 集 C,， 保 留 C2 中 满足 约束 条 件 的 项 集 得 到 2 
项 频繁 集 ， 记 为 L2; 再 下 一 步 由 L2 与 L1 连 接 产生 3 项 候选 集 C3， 保 留 C2 中 满足 约束 条 件 的 项 集 得 到 3 项 频繁 集 ， 记 为 L3…… 这 样 循环 下 去 ， 得 到 最 大 频繁 项 集 LK。 

前 枝 步 紧 接 着 连接 步 ， 在 产生 候选 项 Ck 的 过 程 中 起 到 减少 搜索 空间 的 作用 。 由 于 Ck 是 Lk-1 与 L1 连 接 产 生 的 ， 根 据 Apriori 的 性 质 ， 频 繁 项 集 的 所 有 非 空 子 集 也 必须 是 频繁 项 集 ， 所 以 不 满足 该 性 质 的 项 集 
将 不 会 存在 于 Ck 中 ， 该 过 程 就 是 剪 枝 。 

2) 由 频繁 项 集 产生 强 关 联 规则 : 由 过 程 1) 可 知 ， 未 超过 预定 的 最 小 支持 度 闪 值 的 项 集 已 经 被 剔除 ， 如 果 剩 下 这 些 规则 又 满足 了 预定 的 最 小 置信 度 冰 值 ， 就 挖掘 出 了 强 天 联 规则 。 

Apriori 算 法 是 一 种 最 有 影响 的 挖掘 布尔 关联 规则 频繁 项 集 的 算法 。 该 天 联 规则 在 分 类 上 属于 单 维 、 单 层 、 布 尔 关 联 规则 。 在 这 里 ， 所 有 支持 度 大 于 最 小 支持 度 的 项 集 称 为 频繁 项 集 。 

可 能 产生 大 量 的 候选 集 ， 以 及 可 能 需要 重复 扫 拉 数据库， 是 Apriori 算 法 的 两 大 缺点 。 

2.FP- 树 频 集 算法 

针对 Apriori 算 法 的 固有 缺陷 ,上 Han 等 提出 了 不 产生 候选 挖掘 频繁 项 集 的 方法 : FP- 树 频 集 算法 。 采 用 分 而 治之 的 策略 ， 在 经 过 第 一 遍 扫描 之 后 ， 把 数据 库 中 的 频 集 压 缩 进 一 棵 频繁 模式 树 (FP- 
tree) ， 同 时 保留 其 中 的 关联 信息 ， 随 后 再 将 FP-tree 分 化 成 一 些 条 件 库 ， 每 个 库 和 一 个 长 度 为 1 的 频 集 相关 ， 然 后 再 分 析 挖 掘 这 些 条 件 库 。 当 原始 数据 量 很 大 时 ， 也 可 以 结合 划分 的 方法 ， 使 得 一 个 FP-tree 
可 以 放 入 主 存 中 。 实 验 表 明 ，FP-growth 对 不 同 长 度 的 规则 都 有 很 好 的 适应 性 ， 同 时 在 效率 上 较 Apriori 算 法 有 巨大 的 提高 。 

3. 基 于 划分 的 算法 

Savasere 等 设计 了 一 个 基于 划分 的 算法 。 这 个 算法 先 把 数据 库 从 逻辑 上 分 成 几 个 互 不 相交 的 块 ， 每 次 单独 考虑 一 个 分 块 并 对 它 生成 所 有 的 频繁 项 集 ， 然 后 合并 产生 的 频繁 项 集 ， 用 来 生成 所 有 可 能 的 频 


繁 项 集 ， 最 后 计算 这 些 项 集 的 支持 度 。 这 里 分 块 的 大 小 选择 要 使 每 个 分 块 可 以 被 放 入 主 存 ， 每 个 阶段 只 需 扫 描 一 次 。 该 算法 是 可 以 高 度 并 行 的 ， 可 以 把 每 一 个 分 块 分 别 分 配给 某 一 个 处 理 器 生成 频 集 。 产 生 
频繁 项 集 的 每 一 个 循环 结束 后 ， 人 处 理 器 之 间 进 行 通信 来 产生 全 局 的 候选 k- 项 集 。 通 常 这 里 的 通信 过 程 是 算法 执行 时 间 的 主要 瓶颈 ;而 另 一 方面 ， 每 个 独立 的 处 理 器 生成 频繁 项 集 的 时 间 也 是 瓶 贷 。 


本 节 重 点 介绍 Apriori 算 法 ， 可 以 从 支持 度 (support) 、 和 置信 和 度 (confidence) 和 提升 度 (lift) 三 个 指标 来 评估 关联 规则 效果 。 
以 上 面 道具 购买 的 例子 来 说 明 这 三 个 度 。 假 设 共有 1000 人 购买 了 物品 (事务 集 W) ， 其 中 购买 了 5000 金 币 的 有 100 人 ， 购 买 了 8000 金 币 的 有 150 人 ， 同 时 购买 了 5000 金 币 和 8000 金 币 的 有 80 人 .。 


1) 支持 度 是 交易 集 同 时 包含 X 和 Y 的 交易 数 与 事务 集 W 之 比 。 


support (X=>Y) =count (X 门 Y) /W=80/1000=8% 


2) 置信 度 是 指 包 含 X 和 Y 的 交易 数 与 包含 X 的 交易 数 之 比 。 


confidence (X=>Y)=support (X=>Y) /support (X) =80/100=80% 


也 就 是 说 有 80% 的 用 户 在 购买 了 5000 金 币 之 后 还 会 购买 8000 金 币 。 


3) 提升 度 就 是 在 购买 X 物 品 的 前 提 下 ， 购 买 Y 物 品 的 可 能 性 与 没有 购买 X 物 品 的 情况 下 购买 Y 物 品 的 可 能 性 之 比 。 


lift (X=>Y)=confidence (X=>Y) /support (Y)=80%/15%=5.34 


当 提 升 度 等 于 1 时 ， 说 明 X 和 Y 是 相互 独立 的 ， 只 是 一 个 随机 事件 ， 提 升 度 越 大 ， 引 导 规 则 比 随 机 推荐 要 有 效 得 多 。 
在 建 模 过 程 中 需要 调整 参数 ， 包 括 最 小 支持 度 、 最 小 置信 和 度 、 最 小 项 集 和 最 大 项 集 。 其 中 ， 最 小 支持 度 是 用 户 定 义 的 衡量 支持 度 的 一 个 阐 值 ， 表 示 项 目 集 在 统计 意义 上 的 最 低 重 要 性 ;最 小 置信 和 度 是 用 
户 定 义 的 衡量 置信 和 度 的 一 个 阅 值 ， 表 示 关 联 规则 的 最 低 可 靠 性 。 同 时 满足 最 小 支持 度 阅 值 和 最 小 置信 和 度 阅 值 的 规则 称 作 强 规则 。 


9.3.2”R 中 的 实现 


在 R 语 言 中 ， 可 以 用 于 关联 分 析 的 程序 包 主 要 有 arules 和 arulesViz 包 。 利 用 arules 程 序 包 中 的 相关 函数 可 以 实现 关联 规则 算法 ， 包 括 Apriori 算 法 、Eclat 算 法 和 weclat 算 法 。arulesViz 包 可 以 实现 关联 规 
则 的 可 视 化 。 关 联 规则 主要 包括 对 频繁 数据 集 的 探索 、 建 立 关 联 规则 和 查看 与 分 析 关 联 规则 。 人 在 arules 包 中 ， 建 立 关联 规则 三 种 算法 的 函数 实现 如 表 9-5 所 示 。 


表 9-5 atules 包 中 的 关联 规则 函数 


算 法 实现 函数 
apTlorl aprlorl(data,parameter=NULL,appearance=NULL,controlj=NULL) 
eclat eclat(data,parameter=NULL,control=NULL) 
weclat weclat(data,parameter=NULL,control=NULL) 


这 三 个 函数 的 使 用 格式 很 类 似 ， 主 要 区 别 在 于 内 部 算法 和 关联 规则 输出 形式 不 同 ， 同 时 eclat () 和 weclat 较 apriori () 少 了 一 个 参数 appearance。 以 apriori 函 数 为 例 ， 解 释 各 参数 。 


其 中 data 为 用 于 进行 关联 分 析 的 数据 集 ， 为 事务 型 数据 ， 可 以 通过 as 函数 进行 转化 。parameter 为 用 于 设置 关联 规则 的 参数 ， 如 支持 度 和 置信 度 等 参数 。 在 默认 情况 
下 ，parameter=list (Support=0.1，confidence=0.8，maxlen=10，minlen=1，target= "rules") 。parameter 常 用 的 参数 说 明 如 表 9-6 所 示 。 


表 9-6 ”parametet 常 用 参数 说 明 


参 数 说 明 

support 一 个 项 集 的 最 小 文 持 度 ， 默 认为 0.1， 可 简写 为 supp 

minlen 每 项 集 最 小 项 目 数 ， 默 认为 1 

maxlen 每 项 集 最 大 项 目 数 ， 默 认为 10 

target 用 户 指 定 挖掘 关联 的 类 型 ， 选 项 包括 : frequent itemsets 、maximally frequent itemsets 、closed 
frequent itemsets 、rules ( 仅 适 用 apriori)、hyperedgesets ( 仅 适 用 apriori)， 默 认为 rules 

ext 表示 是 否 生 成 天 于 quality measures (如 lhs.support) 的 额外 信息 ， 默 认为 FALSE 

confidence 一 个 项 集 的 最 小 置信 度 ， 默 认为 0.8， 可 简写 为 conf。 对 于 "frequent itemsets"， 置 信和 度 为 NA 


appearance 参 数 用 于 指定 items 项 在 规则 中 出 现 的 位 置 。appearance 参 数 的 命名 列表 包含 如 下 元 素 : Ihs、rhs、both、items、none、default。lhs、rhs、both 分 别 表示 items 出 现在 规则 的 前 项 、 


项 、 前 项 或 后 项 。none 指 定 不 能 出 现在 rule 规 则 或 itemset 项 集中 的 items 项 。default 指 定 列表 中 其 他 元 素 没有 提 及 的 items 项 出 现 的 位 置 ， 可 以 是 both、Ihs、rhs 和 none 中 的 一 个 ， 默 认 项 是 both。 


arules 包 中 其 他 用 于 Apriori 关 联 规则 分 析 的 关联 函数 如 表 9-7 所 示 。 


表 9-7 关联 规则 分 析 的 关联 函数 


也 数 说 朋 
inspect() 查看 事务 型 数据 或 关联 规则 
quality() 提取 规则 中 的 支持 度 、 置 信和 度 、 提 升 度 等 信息 
itemFrequency() 计算 各 个 项 集 出 现 的 频率 (支持 度 ) 
itemFrequencyPlot() 绘制 所 包含 的 特定 商品 的 交易 比例 的 柱状 图 
image() 绘制 稀 下 和 矩阵 图 
interestMeasure() 计算 规则 的 各 种 附加 信息 
sort() 对 规则 列表 重新 排序 ， 默 认 是 降序 排序 
subset() 提取 符合 一 定 条 件 的 关联 规则 


arulesViz 包 中 的 plot 函 数 可 以 实现 关联 规则 可 视 化 ， 其 表达 式 为 : 


后 


plot (rules,method,measure, shading, interactive) 


其 中 ，rules 是 通过 关联 规则 分 析 得 到 的 规则 。 

method 设 置 图 形 的 类 型 ， 选 项 包括 : scatter ( 散 点 图 ) 、graph (关联 图 形 ) 、grouped (分 组 和 矩阵 ) 、paracoord (平行 坐标 图 ) 、matrix (和 矩阵 图 ) 、matrix3D (3D 和 矩 阵 图 ) 。 

measure 的 选项 包括 : "support"、"confidence"、"lift"、"order"。 有 的 图 形 需 要 设置 一 个 measure 参 数 ， 有 的 需要 设置 两 个 measure 参 数 (如 "scatter") ， 有 的 不 需要 设置 measure 参 数 
(如 "graph") 。 

shading 的 选项 包括 : "support"、"confidence"、"lift"。 


interactive 用 于 图 形 的 交互 式 探索 ， 默 认为 FALSE， 可 以 使 用 interactive=TURE 来 实现 图 形 的 选择 和 缩放 。 


9.3.3 案例: 对 用 户 购买 物品 进行 关联 分 析 


从 数据 库 中 导出 一 份 用 户 物 品 购买 数据 ， 包 括 用 户 ID、 商 品名 称 和 购买 数量 三 个 变量 。 表 9-8 所 示 是 玩家 物品 购买 数据 样 例 。 


表 9-8 用 户 物品 购买 数据 


player_id product name qty 
107204535 感恩 大 礼包 | 
107204535 新 手 礼包 | 
213666611 8 条 钥匙 | 


278620434 15 000 金币 ] 


278620434 70 000 金币 | 
278620434 快速 复活 8 


将 数据 导入 R 中 ， 并 对 数据 进行 重组 ， 转 换 成 行为 用 户 ID， 列 为 各 种 道具 名 称 的 和 矩阵 。 


> data <- readq.csv(" 玩 家 购物 数据 .csv") 
> 者 利用 Cast 函数 对 数据 进行 重组 
> library (reshape) 
> data matrix <- cast (data,player id~product name,value = "gty") 
> 井 查看 前 三 行 五 列 数据 
> data matrix[1:3,1:5] 
player id 0.1 元 大 礼包 10 块 滑板 15000 人 金币 15 元 大 礼包 
1 107204535 NA NA NA NA 
2 213666611 NA NA NA NA 
3 226500629 1 NA NA NA 


可 见 ， 如 果 该 用 户 没有 购买 某 种 道具 ， 则 用 NA 表示 。 接 下 来 ， 需 要 将 NA 转化 为 0， 其 他 数字 都 转化 为 1， 为 事务 型 数据 构建 稀疏 和 矩阵。 利用 as 函数 将 稀 中 和 矩阵 转换 成 事务 型 数据 ， 利 用 inspect 查 看 转换 


## 进行 替换 ， 将 NA 转化 为 0， 其 他 数字 为 1 

data _ matrix new <- apply(data matrix[,-1],2,function(x) {ifelse(is.na(x),0,1)}) 

# 对 给 阵 行 名 称 、 列 名 称 赋值 

data matrix new <- matrix(data matrix new,nrow=dim(data matrix new) [1], 
ncol=dim(data matrix new) [2], 

十 dimnames = list(data matrixl[,1],colnames (data _ matrix) [-1])) 

> # 查看 前 三 行 前 五 列 的 数据 

> data _ matrix new[1:3,1:5] 

0.1 元 大 礼包 10 块 滑板 15000 金 币 15 元 大 礼包 1 条 钥匙 

0 


107204535 0 0 0 0 
213666611 0 0 0 0 0 
226500629 1 0 0 0 0 
> # 利用 aas 函数 将 算 阵 转换 成 事务 型 
> library (arules) 
> data class <- as(data matrix new,"transactions") 
> inspect (data _ class[1:6])# 查看 前 六 条 交易 记录 
items transactionID 
1 {感恩 大 礼包 ,新 手 礼包 】} 107204535 
2 {8 条 钥 是 } 213666611 
3 {0.1 元 大 礼包 , 8 条 钠 匙 ,限量 版 角色 } 226500629 
4 {38000 人 金币 ,限量 版 角色 ,新 手 礼包 } 230329140 
5 {50 条 钥匙 } 264162836 
6 {15000 人 金币 ,70000 人 金币 ,快速 复 活 } 278620434 


1D 为 107204535 的 用 户 购 买 了 感恩 大 礼包 和 新 手 礼包 ，1D 为 213666611 的 用 户 购买 了 8 条 钥匙 ，1D 为 226500629 的 用 户 购买 了 0.1 元 大 礼包 、8 条 钥匙 、 限 量 版 角色 。 也 可 以 通过 summary 函 数 查看 事务 
型 数据 的 一 些 汇总 言 息 。 


> summary (data class) # 查看 汇总 信息 

transactions as itemMatrix in sparse format with 
6252 rows (elements/itemsets/transactions) and 
26 columns (items) and a density of 0.05526847 


most frequent items: 
8 条 钥匙 。” 15000 人 金币 0.1 元 大 礼包 限量 版 角色 50 条 钥匙 (Other) 
2171 1161 796 732 634 3490 
element (itemset/transaction) length distribution: 
sizes 


2 3 4 5 6 7 8 9 
4510 1126 392 132 60 下; 7 3 3 
Min. lst Qu. Median Mean 3rd Qu. Max. 
1.000 1.000 1.000 1.437 2.000 9.000 
includes extended item information - examples: 


labels 
1 0.1 元 大 礼包 
2 10 块 滑板 
3 15000 人 金币 
includes extended transaction information - examples: 
transactionID 
1 107204535 
2 213666611 
3 226500629 
summary 结 果 的 解释 如 下 。 


第 一 部 分 : 共有 6252 条 交易 记录 transaction，26 个 商品 item， 密 度 (density) 值 0.05526847 (5.5%) 是 指 非 零 矩阵 单元 的 比例 。 
第 二 部 分 : 最 频繁 出 现 的 商品 item 及 其 出 现 的 次 数 。 例 如 ，8 条 钥匙 出 现 了 2171 次 ,说 明 在 6252 次 交易 中 有 2171 次 交易 包含 了 8 条 钥匙。 


三 部 分 : 每 笔 交 易 包含 的 商品 数目 及 其 对 应 的 5 个 分 位 数 和 均值 的 统计 信息 。 例 如 ， 有 4510 位 用 户 只 购买 了 一 个 商品 ， 仪 有 3 位 用 户 购买 了 9 件 商品 。 第 三 四 分 位 数 (3rd Qu.) 为 2， 意 味 着 75% 的 用 
户 购买 的 商品 item 数 不 超过 2。 


第 四 、 五 部 分 : 包含 labels (item 名 字 ) 和 transactionID (玩家 ID) 。 


利用 itemFrequency () 函数 计算 各 个 项 集 的 出 现 频 率 (支持 度 ) 。 例 如 ， 可 通过 itemFrequency[，1: 3] 命 令 查看 data_class 数 据 中 前 3 件 道具 的 支持 度 ， 也 可 以 直接 给 定 道具 名 称 查看 支持 度 。 


> itemFrequency (data class[,1:3]) # 查看 前 三 件 道具 的 支持 度 
元 尖 礼包 10 块 滑板 15000 人 金币 
.12731926 0.01071657 0.18570058 


> itemFrequency (data class[,c('8 条 钥匙 ', '15000 人 金币 ', '0.1 元 大 礼包 ') ] )# 查 看 指定 道具 的 支持 度 


0 


8 条 钥 是 
0.3472489 0.1857006 0.1273193 


可 见 


结果 相同 。 


为 了 直观 地 呈现 各 项 集 的 支持 度 ， 可 使 用 itemFrequencyPlot () 函数 生成 一 个 用 于 描绘 所 包含 的 特定 商品 交易 


15000 人 金币 


0.1 元 大 礼包 


，8 条 钥匙 的 出 现 频率 (支持 度 ) 为 0.3472489， 在 前 面 分 析 中 已 经 


道 8 条 钥匙 出 现 的 次 数 为 2171， 从 而 可 以 计算 出 8 条 钥匙 的 支持 度 为 2171/6252 = 0.3472489， 与 用 itemFredquency 函 数 得 到 的 


比例 的 柱状 图 。 因 为 事务 型 数据 包含 了 非常 多 的 项 ， 所 以 常常 需要 限制 出 现在 图 中 的 


项 ， 以 便 产 生 一 幅 清晰 的 图 。 执 行 以 下 代码 得 到 的 结果 如 图 9-15 所 示 。 
> par (mfrow=c (2,1)) 
> # 输出 支持 度 support 大 于 0.05 的 项 集 的 支持 度 频率 图 
> itemFrequencyPlot (data class, support=0.05,main="support 大 于 0.05 的 项 集 支 持 度 频 率 图 ") 
> # 输出 支持 度 supPort 最 大 的 前 20 个 项 集 的 支持 度 频 率 图 
> itemFrequencyPlot (qata_classrtopN=20vmain="supportrt 最 大 的 前 20 个 项 集 的 支持 度 频 率 图 ") 
> par (mfrow=c (1,1)) 
support 大 于 0.05 的 项 集 支 持 度 频率 图 
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图 9-15 ”输出 支持 度 频 率 图 
完成 数据 探索 后 ， 利 用 arules 遂 数 建 立 关 联 规则 rules， 设 定 最 小 支持 度 阅 值 为 0.005， 最 小 置信 和 度 阅 值 为 0.1， 每 项 集 最 小 项 目 数 为 2， 并 通过 summer 函 数 查 看 规则 的 汇总 信息 。 
> rules <- apriori (data class, 
十 Parametetr=1ist (support=0.005,confidence=0.1,target="rules",minlen=2)) 
Apriori 


Parameter specif 


ication: 


confidence minval smax arem aval originalSupport maxtime support minlen maxlen target ext 
0.1 0:1 1 none FALSE TRUE 3 0.005 2 10 
rules FALSE 
Algorithmic control: 
filter tree heap memopt load sort verbose 
0.1 TRUE TRUE FALSE TRUE 2 TRUE 
Absolute minimum support count: 31 
Set item appearances http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/...[0 item(s)] done [0.00s]. 
set transactions http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/...[26 item(s), 6252 transaction(s)] done [0.00s]. 
sorting and recoding items http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... [21 item(s)] done [0.00s]. 
creating transaction tree http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... done [0.00s]. 
checking subsets of size 1 2 3 done [0.00s]. 
writing http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... [48 rule(s)] done [0.00s] . 
creating S4 object http: / /WWW. 80300 50 55688 2 05005 5 00 done [0.00s] . 
> summary (rules) 上 # 查看 规则 汇总 信 ， 
set of 48 rules 
rule length distribution (lhs + trhs) :sizes 
2 3 
42 6 
Min. lst Qu. Median Mean 3rd Qu. Max. 
2.000 2.000 2.000 2%1253 2.000 3:000 
summary of quality measures: 
support confidence lift 
Min. :0.005278 Min. :0.1034 Min. : 0.3979 
lst Qu.:0.007678 lst Qu.:0.1540 lst Qu.: 0.8391 
Median :0.011916 Median :0.1764 Median : 1.3211 
Mean :0.012939 ”Mean :0.2179 ”Mean : 2.0827 
3rd Qu. :0.016115 3rd Qu. :0.2363 3rd OW: 2.23235 
Max. :0.040787 Max. 0.9009 Max. :13.1907 
mining info: 
data ntransactions support confidence 
data class 6252 0.005 0.1 


summary 一 开始 给 出 了 符合 条 件 的 规则 数目 ， 


第 一 部 分 : 


第 三 部 分 


规则 的 长 度 分 布 ( 


: 支持 度 、 置 信和 度 和 提升 度 的 描述 


: 挖掘 的 相关 信息 。 


前 项 + 后 项 ) 及 其 对 应 的 5 个 


术 统计 信息 。 


分 位 数 和 均值 的 统计 信息 。len=2 有 42 条 规则 ， 


一 共有 48 条 规则 。 其 他 结果 解释 如 下 。 


len=3 有 6 条 规则 。 


可 以 通过 inspect 函 数 查 看 关联 规则 ，quality 孙 数 提取 每 条 规则 的 支持 度 、 置 信 度 和 提升 度 信息 。 以 下 代码 给 出 了 前 六 条 规则 的 相关 信息 。 


> inspect (rules[1:6]) # 查看 前 六 条 规则 


lhs rhs support confidence 1ift 

[1] { 超 值 大 礼包 } => {新 手 礼包 } 0.015994882 0,9009009 13.190708 
[2] {新 手 礼包 } => { 超 值 大 礼包 } 0.015994882 0.2341920 3.190708 
[3] {3000 人 金币 } => {新 手 礼包 } 0.007677543 0.2330097 3.411655 
[4] {新 手 礼包 } => {3000 人 金币 } 0.007677543 0.1124122 3.411655 
[5] {3000 人 金币 } => {15000 人 金币 } 0.008957134 0.2718447 1.463887 
[6] {38000 人 金币 } => {70000 人 金币 } 0.007517594 0.2061404 2.210617 
> quality (rules[1:6]) # 提取 前 六 条 规则 信息 

support confidence Lift 

0.015994882 0.9009009 13.190708 
2 0.015994882 0.2341920 13.190708 
3 0.007677543 0.2330097 3.411655 
4 0.007677543 0.1124122 3.411655 
5 0.008957134 0.2718447 1.463887 
6 0.007517594 0.2061404 2.210617 


根据 购物 篮 分 析 的 目标 ， 最 有 用 的 规则 或 许 是 那些 具有 最 高 支持 度 、 置 信和 度 和 提升 度 的 规则 。sort () 函数 可 以 用 来 对 规则 列表 重新 排序 ， 从 而 那些 具有 最 高 或 者 最 低 质 量度 量 值 的 规则 将 会 排 在 第 一 
位 。 需 要 注意 的 是 ，sort () 函数 排序 结果 是 递减 的 ， 并 且 只 能 实现 对 关联 规则 排序 的 功能 ， 不 能 显示 排序 后 的 结果 ， 想 要 查看 排序 后 的 结果 ， 还 是 要 通过 inspect () 函数 来 实现 。 


> # 对 规则 按照 提升 度 排序 ， 并 输出 提升 度 最 大 的 前 六 条 规则 
> inspect (sort (rules,by="1ift") [1:6]) 


lhs rhs support confidence 1ift 
6 { 超 值 大 礼包 】} => {新 手 礼 包 } 0.015994882 0.9009009 13.190708 
7 {新 手 礼包 } => bs 0.015994882 0.2341920 13.190708 
50 { 双 倍 金币 ,限量 版 角色 } ”=> {解锁 滑板 } 0.005918106 0.3523810 5.737202 
48 {解锁 滑板 , 双 倍 金币} => {限量 版 角 色 } 0.005918106 0.4933333 4.213552 
49 {解锁 滑板 ,限量 版 角色 } ”=> { 双 倍 金币} 0.005918106 0.3083333 ”3.524132 
8 {3000 人 金币 } => {新 手 礼包 } 0.007677543 0.2330097 3.411655 


规则 6、 规 则 7 都 是 指 用 户 购买 过 超 值 大 礼包 和 新 手 礼包 的 支持 度 是 0.0159， 提 升 度 是 13.19， 由 此 说 明 apriori 算 法 是 不 考虑 物品 购买 前 后 顺序 的 。 如 果 需 要 考虑 物品 购买 顺序 因素 ， 可 以 利用 
arulesSedquences 包 中 的 cspade 国 数 实现 CSPADE 算 法 。 


有 时 候 ， 我 们 需要 提取 符合 一 定 条 件 的 关联 规则 ， 可 以 通过 设置 subset (rules，subset) 函数 来 实现 ， 其 中 subset 参 数 为 逻辑 表达 式 ， 用 于 设置 规则 提取 的 条 件 。 常 用 的 条 件 有 两 种 ， 一 个 条 件 是 限定 
输出 的 前 项 和 后 项 为 具体 的 某 些 项 ， 另 一 个 条 件 是 限定 支持 度 、 置 信和 度 、 提 升 度 的 过 滤 条 件 。 


限定 输出 的 前 项 和 后 项 常用 到 以 下 三 个 符号 。 
 %in%: 精确 匹配 。 例 如 ，items%in%c (" 超 值 大 礼包 ", "新 手 礼包 ") 表示 在 前 项 和 后 项 的 并 集中 ， 至 少 有 一 个 item 等 于 " 超 值 大 礼包 "或 "新 手 礼包 "。 如 果 仅 仅 想 搜索 前 项 或 后 项 ， 那 么 用 lhs 或 者 ths 替 换 
items 民 Pp 可 。 
 %pin%: 部 分 匹配 。 例 如 ，items%pin%c ("超人 和 值 大 礼包 ", "新 手 礼 包 ") 表示 在 前 项 和 后 项 的 并 集中 ， 至 少 有 一 个 item 包 含 " 超 值 大 礼包 "或 "新 手 礼包 
9%ain%: 完全 匹配 。 例 如 ，items%ain%c 〈" 超 值 大 礼包 "，" 新 手 礼 包 ") 表示 在 前 项 和 后 项 的 并 集中 ， 同 时 存在 " 超 值 大 礼包 "或 "新 手 礼 包 


如 需要 设置 多 个 条 件 可 通过 条 件 运算 符 (&，|，! ) 添加 。 


> # 提取 前 项 包含 " 超 值 大 礼包 "或 "新 手 礼包 "的 规则 

> eat es subset=]hs %in% c(" 超 值 大 礼包 ", "新 手 礼包 "))) 

lhs rhs support confidence 二 了 尘世 

[1] { 超 值 大 礼包 } => {新 手 礼包 } 0.015994882 0.9009009 13.1907083 
{新 手 礼包 】} => { 超 值 大 礼包 } 0.015994882 0.2341920 13.1907083 


] 

] {新 手 礼包 } ”=> {3000 人 金币 } 0.007677543 0.1124122 3.4116550 
] {新 手 礼包 } ”=> {0.1 元 大 礼包 } 0.010396673 0.1522248 1.1956151 
] {新 手 礼包 } ”=> {15000 人 金币 } 0.010556622 0.1545667 ”0.8323439 
] {新 手 礼包 } ”=> {8 条 钥 是 } 0.009436980 0.1381733 0.3979086 
# 
i 


提取 前 项 包含 " 超 值 大 礼包 "或 "新 手 礼包 " 且 1ift 大 于 1 的 规则 
nspect (subset (rules, subset=]lhs $in% c(" 超 值 大 礼包 ", "新 手 礼包 ") & 1ift>1)) 
lhs rhs support confidence 1ift 
[1] {超人 和 值 大 礼包 } => {新 手 礼包 } 0.015994882 0.9009009 3.190708 
[2] {新 手 礼包 } => { 超 值 大 礼包 } 0.015994882 0.2341920 13.190708 
[3] {新 手 礼包 } => {3000 人 金币 } 0.007677543 0.1124122 3..411655 
[4] {新 手 礼包 } => {0.1 元 大 礼包 } 0.010396673 0.1522248 L95615 


最 后 ， 通 过 arulesViz 包 中 的 plot () 函数 对 关联 规则 进行 可 视 化 。 例 如 ， 相 对 提升 度 大 于 2 的 规则 绘制 关联 图 形 (method="graph") 。 执 行 以 下 代码 得 到 的 结果 如 图 9-16 所 示 。 


> rules lift <- subset (zules, subset= 1ift>2) 
> library (arulesViz) 载 入 需要 的 程 辑 包 : grid 
# 绘 制 关联 图 形 
> plot (rules 1ift,method="graph", 
control = list (nodeCol = grey.colors (10 
edgeCol = grey(.7), alpha = 


), 
1)) 


Graph fot 15 rules size:support (0.006-0.019) 
color: lift (2.211—13.191) 
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图 9-16 ”关联 规则 关联 图 形 


圆圈 越 大 表示 文 持 度 越 大 ; 圆圈 的 颜色 表示 规则 的 提升 度 (2.211~13.191) ， 颜 色 由 灰色 到 黑色 表示 提升 度 由 小 到 大 ;箭头 方向 表示 从 


图 9-16 所 示 圆圈 表示 规则 的 支持 度 (0.006~0.019) ， 
说 明 这 两 条 规则 的 提升 度 最 大 ，{ 解 锁 滑 板 }= >{ 限 量 版 角色 } 和 {限量 版 角色 }= > { 解 锁 滑 板 } 的 圆圈 最 大 ， 说 


Ihs=>rhs。 由 图 9-15 可 知 ， 僵 值 大 礼包 }= > 新手 礼 包 ) 和 休 手 礼包 }= > 分 值 大 礼包 } 的 颜色 是 黑色 ， 
明 这 两 条 规则 的 支持 度 最 大 。 
将 method 设 置 为 "grouped"， 可 以 绘制 分 组 和 矩阵。 执行 以 下 代码 得 到 的 结果 如 图 9-17 所 示 。 
> # 绘 制 分 组 纸 阵 


> plot (rules 1ift,method = "grouped", 
十 control = list(col = grey.colors (10) ) ) 


Grouped matrix for 13 rules 
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图 9-17 ”关联 规则 分 组 纸 阵 


图 9-17 所 示 圆圈 表示 支持 度 ， 圆 圈 越 大 表示 支持 度 越 大 ;颜色 代表 提升 度 ， 颜 色 由 灰色 到 黑色 表示 提升 度 由 小 到 大 。 上 面 (column) 是 Ihs (前 项 ) ， 是 道具 名 称 和 规则 数目 ; 右边 (row) 是 rhs (后 
项 ) ， 是 道具 名 称 。 


也 可 以 通过 write 函数 把 生成 的 规则 导出 到 本 地 ， 以 便 进一步 分 析 。 导 出 结果 如 图 9-18 所 示 。 


> # 将 规则 导出 到 本 地 


> WwWTite (rules, "rules.txt", sep="|",row.names=F) 


i 0. 2 0. 900900900900901 |13. 1907082726755 
0. 0159948816378759|0. 234192037470726 |13. 1907082726755 
0. 233009708737864 |3. 4116550328551 
0. 00767754318618042|0. 112412177985948 |3. 4116550328551 
oon |0. 00895713371721049|0. 271844660194175|1. 46388700735054 
Ese, |0. 0075175943698016610. 206140350877193|2. 21061659294033 
{50 条 钥匙 ]“ |0. 0063979526551503510. 175438596491228|1. 73003486634568 
由 5000 金 市 } “|0. 00847728726807422|0. 232456140350877|1. 25177931909878 
{8 条 钥匙 } “|0. 00639795265515035 |0. 175438596491228 |0. 505224369075614 
f70000 金 而] “|0. 00527831094049904|0. 166666666666667|1. 78730703259005 
oR |0. 00831733845169546 |0. 262626262626263 |2. 5898097696205 
{15000 金 币 } ”|0. 00767754318618042|0. 242424242424242|1. 3054576775507 
条 钥匙 }”|0. 0140754958413308|0. 444444444444444 |1. 27990173499156 
“|0. 00735764555342291 |0. 150326797385621 |1. 71817758181883 
0. 0127959053103007 |0. 261437908496732 |2. 23293689060324 
0. 0127959053103007 |0. 109289617486339 |2. 23293689060324 
0. 0076775431861804210. 15686274509803910. 844707909003395 
. 00975687779910429 |0. 199346405228758|0. 574073572312389 
0. 0119961612284069|0. 1953125 |2. 23234689213894 
0. 011996161228406910. 137111517367459|2. 23234689213894 
“|0. 0191938579654511 |0. 3125|2. 66905737704918 
“|0. 0191938579654511 |0. 163934426229508|2. 66905737704918 
|0. 00959692898272553 |0. 15625 |0. 84140826873385 
.0118362124120282|0. 192708333333333 |0. 554957392906495 
“|0. 0103966730646193|0. 152224824355972|1. 19561507773057 
0. 0105566218809981 |0. 154566744730679|0. 832343917361073 
.00943698016634677|0. 138173302107728|0. 397908560468686 


YY 


bd 
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图 9-18 将 关联 规则 导出 到 本 地 


9.4 ”基于 用 户 物品 购买 智能 推荐 


关联 规则 只 能 反映 一 个 事物 与 其 他 事物 之 间 的 关联 性 ， 有 时 候 ， 可 根据 用 户 的 兴趣 特点 和 购买 行为 ， 向 用 户 推荐 他 们 感 兴趣 的 信息 和 道具 。 一 个 好 的 推荐 系统 能 够 为 用 户 提供 个 性 化 服务 ， 增 强 用 户 黏 


由 池 
9.4.1 ”智能 推荐 模型 构建 及 评估 


智能 推荐 的 方法 有 很 多 ， 包 括 基于 内 容 推荐 、 协 同 过 渡 推 荐 、 基 于 规则 推荐 、 基 于 效用 推荐 和 基于 知识 推荐 。 各 种 推荐 算法 都 有 其 优 缺 点 ， 如 表 9-9 所 示 。 


表 9-9 各 种 推荐 算法 的 优 缺 点 


推荐 算法 优点 缺 ”点 


新 用 户 问题 
办 Pa a 和 二 直 存 结果 直观 ， 容易 分 释 ; 一 产 
基于 内 容 推荐 a ee 复杂 属性 不 好 处 理 ; 


要 有 足够 数据 构造 分 类 天 


新 异 兴趣 发 现 、 不 需要 领域 知识 ; 可 扩展 性 问题 ， 
随 着 时 间 推移 性 能 提高 新 用 户 问题 ; 
协同 过 滤 推 大 推荐 个 性 化 、 自 动 化 程度 高 ; 质量 取决 于 历史 数据 集 ; 
能 处 理 复杂 的 非 结构 化 对 象 系统 开始 时 推荐 质量 差 


规则 抽取 难 、 耗 时 ; 


产品 名 同 义 性 问题 ; 
个 性 化 程度 低 


能 发 现 新 兴趣 点 ; 
不 需要 领域 知识 


基于 规则 推 存 


由 于 各 种 推荐 算法 都 有 优 缺 点 ， 所 以 在 实践 中 ， 组 合 推荐 经 常 被 采用 ， 研 究 应 用 最 多 的 是 内 容 推 荐 和 协同 过 滤 推 荐 的 组 合 。 
在 R 语 言 中 ， 常 使 用 recommenderlab 包 中 的 函数 构建 和 评估 智能 推荐 模型 。 下 面 详细 介绍 recommenderlab 包 。 
1.Recommender () 函数 

* 功能: 构建 推荐 模型 。 


“ 使 用 格式 : 


Recommender (data, method, parameter=NULL) 


其 中 data 为 一 个 ratingMatrix。ratingMatrix 有 两 种 : realRatingMatrix 和 binaryRating-Matrix。realRatingMatrix 是 一 个 评分 矩阵， 以 真实 的 评分 数据 反映 在 矩阵 中 ，binaryRating-Matrix 为 布尔 矩 
阵 ， 相 当 于 把 realRatingMatrix 中 大 于 0 的 数值 赋值 为 1。 


method 的 选项 包括 包括 IBCF (基于 物品 的 协同 过 滤 推 荐 ) 、UBCF (基于 用 户 的 协同 过 滤 推 荐 ) 、SVD (和 矩阵 因子 化 ) 、PCA ( 主 成 分 分 析 ) 、RANDOM (随机 推荐 ) 、POPULAR (基于 流行 度 的 
推荐 ) 。 


parameter 的 参数 有 很 多 ， 执 行 以 下 代码 可 以 得 到 不 同 method 下 参数 的 默认 设置 : 


recommenderRegistry$get entries (dataType="realRatingMatrix") 


此 处 以 IBCF 为 例 简单 介绍 各 参数 的 合 义 。 


民 I 


IBCF realRatingMatrix 

Recommender method: IBCF for realRatingMatrix 

Description: Recommender based on item-based collaborative filtering。 
Reference: NA 


Parameters: 
k method normalize normalize sim matrix alpha na as zero 
30 "Cosine" "center" FALSE 0.5 FALSE 


k: 取 多 少 个 最 相似 的 tem， 默 认为 30。 

method: 相似 度 算 法 ， 默 认 采 用 余弦 相似 算法 Cosine。 
normalize: 采用 何 种 归 一 化 算法 ， 默 认为 均值 归 一 化 center。 
normalize sim_matrix: 是 否 对 相似 矩阵 归 一 化 ， 默 认为 FALSE。 
alpha: alpha 值 ， 默 认为 0.5。 

na_as zero: 是 否 将 NA 作为 0， 默 认为 FALSE。 

2.predict () 国 数 

功能 : 预测 推荐 模型 ， 得 到 模型 的 topN 列 表 或 者 用 户 的 预测 评分 。 


“ 使 用 格式 : 


predict (object, newdata, n = 10, data=NULL, type="topNList", http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/...) 


其 中 object 为 Recommender 函 数 生 成 的 推荐 模型 ; newdata 为 待 预测 的 数据 ; n 为 topN 的 值 ， 默 认为 10， 表 示 top10 推 荐 ; type 的 参数 有 "topNList" 和 "ratings"， 当 type="topNList" 时 ，predict 消 
数 直接 返回 用 户 评分 最 高 的 前 N 个 item， 当 type= "ratings" 时 ，predict 函 数 预测 用 户 对 所 有 未 评分 的 item 打 分 ， 返 回 一 个 RatingMatrix 对 象 。 


3.evaluationScheme () 函数 
` 功能 : 创建 一 个 数据 集 的 评价 方案 。 该 方案 可 以 简单 地 分 为 训练 数据 和 测试 数据 ， 以 进行 n 折 交叉 验证 或 pootstrap 重 复 抽 样 。 


.使 用 格式 : 


evaluationScheme (data, method="split", train=0.9, k=NULL, given, goodRating = NA) 


其 中 ，data 为 一 个 RatingMatrix 对 象 ; method 为 评估 方法 ， 选 项 有 split (默认 ) ， 即 简单 的 训练 集 / 测 试 集 分 开 验证 ，bootstrap 即 重复 抽样 ，cross-validation 即 n 折 交叉 验证 ; train 划 分 为 训练 集 的 
数据 比例 ，method 为 split 时 ， 软 认为 0.9; Kk 是 运行 评估 的 折 数 或 倍数 ，method 为 split 时 ， 上 默认 值 为 NULL; given 是 用 来 评价 模型 的 itmes 数 量 ， 默 认 值 为 3，given 越 大 ， 标 准 误差 越 小 ; goodRating 为 
预测 成 功 的 最 小 评分 ， 默 认为 NA，data 为 realRatingMatrix 时 ，goodRating 为 必须 的 参数 。 


4.evaluate () 国 数 
功能: 评价 一 个 或 一 系列 的 推荐 模型 ， 给 出 一 个 评价 方案 。 


` 使 用 格式 : 


evaluate (X，methoadq，type='"topNList"yn=1:10，Pparameter=NULL，…) 


其 中 ，x 为 一 个 evaluationScheme 对 象 ; method 为 字符 串 或 列表 ， 定 义 用 于 评价 的 推荐 方法 及 其 对 应 参数 ， 如 果 给 定 一 个 字符 串 ， 它 定义 了 一 个 用 于 评价 的 推荐 方法 ， 如 果 几 个 推荐 方法 需要 比较 ， 
则 method 为 一 个 谨 套 列表 ; type 选 项 包括 "topNList"、"ratings"; n 为 top-N 列 表 生 成 ; parameter 为 推荐 算法 的 参数 列表 。 


5.calcPredictionAccuracy () 函数 
. 功能 : 计算 预测 精度 、 均 方 根 误差 、 均 方 误差 和 平均 绝对 误差 。 对 于 topnlist， 结 果 返 回 二 分 类 变量 。 


.使 用 格式 : 


calcPredictionAccuracy (x, data, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/...) 


其 中 ，x 为 模型 的 预测 值 ，data 为 模型 数据 。 

6.getData () 函数 

. 功能 : 通常 与 evaluationScheme 函 数 配 合 使 用 ， 用 于 生成 evaluationScheme 的 数据 。 
“ 使 用 格式 : 


getData (x, parm) 


其 中 ，x="evaluationScheme"，parm 可 选项 有 "train"、"known"、"unknown"。 
7.plot () 函数 
. 功能 : 绘制 ROC 曲 线 和 PR 曲线 ， 用 于 评价 推荐 模型 。 


.使 用 格式 : 


plot (x, y,xlim=NULL, ylim=NULL, col = NULL, pch = NULL, lty = 1, 
avg = TRUE, type = "b", annotate= 0, legend="bottomright", http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/...) 


其 中 ，x 为 画图 对 象 ; y 为 画图 的 类 型 ， 可 选 "ROC”(ROC 曲 线 ) or"prec/rec”(PR 曲 线 ) ; avg 默 认为 TRUE， 绘 制 平均 值 ，annotate 为 注释 ， 默 认 没有 注释 ， 若 annotate=n， 则 第 n 条 线 有 注释 ; 
legend 可 设置 图 例 的 位 置 ， 默 认 在 底部 右 人 出 ， 其 他 选项 包括 "bottom'"、"bottomleft"、"left"、"topleft"、"top"、"topright"、"right" 和 "center"; 其 他 参数 与 普通 的 plot 函 数 参数 类 似 。 


9.4.2 案例: 对 用 户 物品 购买 进行 智能 推荐 


由 于 用 户 物 品 购买 数据 data_matrix_new 和 矩阵 中 的 0 表示 未 购买 ，1 表 示 购 买 ， 所 以 需要 利用 as 国 数 将 其 转换 成 binaryRatingM atrix 布 尔 和 矩阵 。 


> library (recommenderlab) 

> # 将 矩阵 转化 为 binaryRatingMatrix 对 象 

> data Class <- as (qata _ matrix new,"binaryRatingMatrix") 

> as (data class, "matrix") [1:3,1:5] # 显 示 部 分 物品 购买 情 
0.1 元 大 礼包 10 块 滑板 15000 人 金币 15 元 大 礼包 1 条 铀 是 

107204535 FALSE FALSE FALSE FALSE FALSE 
213666611 FALSE FALSE FALSE FALSE FALSE 
226500629 TRUE FALSE FALSE FALSE FALSE 


建立 基于 流行 度 、 基 于 用 户 的 协同 过 滤 和 基于 物品 的 协同 过 滤 推 荐 模型 ， 并 对 这 3 个 模型 进行 评价 ， 绘 制 的 ROC 曲 线 和 PR 曲线 如 图 9-19 所 示 。 


# 创建 一 个 评分 方案 (10 折 交叉 验证 ) 
Scheme <- evaluationScheme (data class，methoq="cross-valiqation"， 
k=10, given=-1) 


+ VYV 


> ## 创建 用 于 评估 模型 的 算法 列表 
> algorithms <- list( 
POPULAR = list (name = "POPULAR", param = NULL), 
UBCF=1ist (name="UBCF", param=NULL), 

IBCF=1]ist (name="IBCF",param=NULL) 


+ 1+ 


) 
# 对 模型 进行 评价 
result <- evaluate (scheme,algorithms,n=1:5) 
# 输出 ROC 曲 线 和 Precision-recal1 曲 线 

par (mfrow=c (1, 2)) 
plot (result,annotate=1:3,1ty=1:3,1legend="topleft") # ROC 

plot (result, "prec/rec", lty=1:3,annotate=1:3) #precision-recall 

par (mfrow=c (1,1)) 

# 按照 评价 方案 建立 推荐 模型 

model .popular <- Recommender (getData (scheme, "train"),method="POPULAR") 
model .ubcf <- Recommender (getData (scheme, "train"),method="UBCF") 
model.ibcf <- Recommender (getData (scheme, "train"),methogd="IBCF") 
# 预测 推荐 模型 


VVVVVVVVVYVYVyYV+ 


predict.popular <- predict (model .popular,getData (scheme, "known'" ) ,type="topNList") 
predict.ubcf <- predict (model .ubcf,getData (scheme, "known") ,type="topNList") 
predict.ibcf <- predict (model .ibcf,getData (scheme, "known") ,type="topNList") 

# SL () 的 参数 "know" 和 " unknow" 表示 对 测 试 集 的 进一步 划分 

# "know" 表 示 用 户 已 经 评 分 的 ， 要 用 来 预测 的 Items 
# "unknow" 表 示 用 户 已 经 评分 ， 要 被 预测 以 便于 进行 模型 评价 的 item 

>predict.err<-rbind (cal cpredi ctionAccuracy (predict .popular,getData (scheme, "unknow") ,given=3), 
+calcPredictionAccuracy (predict.ubcf,getData (scheme, "uNnknow") ,given=3), 

十 calcPredictionAccuracy (predict.ibcf,getData (scheme, "unknow") ,given=3)) 

> rownames (predict.err) <- c("POPULAR", 'UBCF', 'IBCF') 

> round (predict .erry 3) 


VVvVvVvVvVvVvVvV 


TB EP EN TN precision recall TPR. ‘EPR 
POPULAR 0.207 2.233 0.037 20.523 0.085 0.850 0.850 0.101 
UBCF 0.126 2.314 0.118 20.442 0:052 ‘0..3516. 0..516 0105 
IBCF 0.156 1.292 0.088 21.464 0.126 0.641 0.641 0.059 
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图 9-19 ROC 曲 线 和 PR 曲线 


图 9-19 所 示 是 运行 以 上 代码 得 到 的 3 个 推荐 模型 的 ROC 曲 线 和 PR 曲线 。ROC 曲 线 越 凸 向 左上 角 效 果 越 好 ， 有 时 不 同 分 类 算法 的 ROC 曲 线 人 存在 交叉 ， 可 用 AUC (Area Under Curve， 曲 线 下 的 面积 ) 值 
作为 算法 好 坏 的 评价 标准 ，AUC 越 大 算法 效果 越 好 ; 与 ROC 曲 线 左 上 凸 不 同 的 是 ，PR 曲 线 是 右上 凸 效 果 好 。 可 见 ， 无 论 是 ROC 曲 线 还 是 PR 曲线 ， 基 于 IBCF (物品 的 推荐 模型 ) 的 AUC 都 是 最 大 的 ， 因 此 认 
为 基于 物品 的 推荐 模型 比 其 他 两 个 模型 的 效果 更 好 。 


最 后 ， 选 择 IBCF 建 立 推荐 模型 ， 对 用 户 进行 top3 推 荐 。 


> # 选 择 IBCF 作 为 最 优 模 型 

> model .best <- Recommender (data class,method="IBCF") 
> # 使 用 precict 遂 数 ， 对 玩家 进行 Top3 推 荐 

> data.predict <- predict (model .best,newdata=data class,n=5) 
> recom3 <- bestN (data.predict, 3) 

> as (recom3, "list") [1:5] # 查 看 前 五 个 玩家 的 Top3 推 荐 

SS 107204535 

[1] " 超 值 大 礼包 TY "3000 人 金币 " "超级 大 礼包 " 

S 213666611、 

[1] "15000 金 币 " "20 条 钥匙 " 

3 226500629 

[1] "解锁 浓 骨 板 " " 双 倍 金币 TY "特殊 滑 板 " 

S 230329140、 

[1] " 超 值 大 礼包 "解锁 涓 骨 板 " " 双 倍 人 金币 TY 

S 264162836 

[1] "70000 人 金币 " "20 条 钥匙 " "15000 人 金币 " 


从 推荐 结果 可 知 ，107204535 用 户 购买 过 "感恩 大 礼包 "和 "新 手 礼包 "这 两 件 物品 ， 此 时 向 他 推荐 " 超 值 大 礼包 ""3000 金 币 " 和 "超级 大 礼包 "这 三 种 新 的 物品 ， 避 免 了 重复 推荐 ， 实 现 个 性 化 推荐 。 


9.5 ”社会 网 络 分 析 


社会 网 络 分 析 (Social Network Analysis，SNA) 是 在 传统 的 图 与 网 络 的 理论 之 上 对 社会 网 络 数据 进行 分 析 的 一 种 方法 。 随 着 人 类 进入 移动 互联 网 时 代 ， 社 会 网 络 数据 成 了 重要 的 数据 资源 。SNA 的 本 
是 利用 各 样本 间 的 关系 来 分 析 整 体 样本 的 群落 现象 ， 并 分 析 样 本 点 在 群落 形成 中 的 作用 以 及 群落 间 的 关系 。 在 游戏 中 ， 社 会 网 络 分 析 也 有 极其 重要 的 作用 ， 如 用 于 游戏 内 社交 系统 分 析 、 用 户 购买 道具 的 


9.5.1 ”网络 图 的 基本 概念 


网 络 图 分 为 无 向 图 (只 研究 用 户 间 是 否 发 生 过 沟通 ) 和 有 向 图 (图 中 使 用 箭头 来 标识 行为 的 发 起 方 和 接收 方 ) ， 如 图 9-20 所 示 。 


网 络 图 无 非 是 一 些 点 和 线 的 组 合 ， 下 面 介绍 网 络 图 的 一 些 基 本 概念 。 
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a) 无 问 图 gl b) 无 问 图 g2 c) 有 回 图 g3 


图 9-20 网络 图 示例 
.无 向 图 : 点 之 间 连 接 的 边 没有 方向 性 ， 如 图 9-20 a、b 所 示 。 
有 向 图 : 点 之 间 的 边 具 有 方向 性 ， 如 图 9-20 c 所 示 。 


. 点 : 一 个 点 即 某 一 样本 ， 如 果 分 析 目 标 是 游戏 用 户 ， 每 一 个 点 就 代表 每 一 个 用 户 。 在 R 中 用 igraph 包 中 的 vcount 函 数 统计 点 的 个 数 。 例 如 ，vcount (g1) 结果 为 8， 说 明 g1 有 8 个 顶点 ， 也 可 以 用 V (gl) 


输出 gl 顶点 集合 。 


边 : 两 点 之 间 的 连 线 称 为 网 络 图 的 “ 边 ”，“ 边 ”可 以 代表 两 个 点 之 间 的 行为 信息 传递 ， 如 游戏 中 两 个 好 友 间 的 经 验 赠送 。 在 R 中 用 igraph 包 中 的 ecount 函 数 统计 边 条 数 。 例 如 ，ecount (g1) 结果 为 


7， 说 明 g1 一 共有 7 条 边 。 用 EE 函数 输出 边 集合 ， 例 如 ， 已 (g1) 无 向 图 边 的 输出 格式 为 : 1--21--31--41--51--61--77--8,， 忆 (g3) 有 向 图 边 的 输出 格式 为 : 2->1 3->1 4->1 5->1 6->1 7->1 1->7 8->7。 


` 度 : 每 个 点 都 有 相应 的 度 。 度 是 指 与 节点 连接 的 边 数 。 在 R 中 用 degree 函 数 统计 节点 的 度 。 例 如 ， 无 向 图 g[L 中 ， 节 点 1 的 度 为 6 (degtree (gl1 ,v=1) ) 。 如 果 是 有 向 图 ， 度 又 分 为 入 度 和 出 度 ， 入 度 是 有 
向 图 中 节点 收 到 边 指 向 的 个 数 ， 出 度 是 有 向 图 中 节点 发 出 边 的 个 数 。 在 R 中 ，degree 函 数 的 mode 参 数 用 来 设置 计算 入 度 (mode="in") 和 出 度 (mode="out") 。 例 如 ， 有 向 图 中 中 节点 1 的 入 度 为 
6 (degree (g3, v=1，mode="in") ) ， 出 度 为 1 (degree (83，v=1，mode="out") ) 。 


. 最 短路 径 : 图 中 从 一 个 节点 到 另 一 个 节点 之 间 的 最 短路 径 ， 又 称 测 地 线 。 在 R 中 ， 用 igraph 包 中 的 getshottest.paths 函 数 可 以 读 取 两 点 间 的 最 短路 径 。 例 如 ， 在 无 向 图 g2 中 ， 节 点 4 到 节点 5 的 最 短路 径 是 4- 


-5 (get.shortest.paths (g2, from=4, to=5) [[1]]) 。 
` 连通 图 : 每 个 节点 都 有 路 径 连通 的 图 ， 这 种 图 即 为 连通 图 ， 反 之 为 非 连通 图 。 例 如 ， 网 络 图 gL、 中 是 连通 图 ， 网 络 图 g2 是 非 连通 图 
连通 分 支 ; 网 络 图 中 每 一 个 连通 部 分 为 图 的 一 个 连通 分 支 。 例 如 ， 网 络 图 82 共 有 3 个 连通 分 支 ，8--9--10 则 为 网 络 图 中 一 个 连通 分 支 。 


` 割 点 : 如 果 在 网 络 图 中 去 掉 一 个 顶点 后 ， 该 网 络 图 的 连通 分 支 数 增加 ， 则 该 顶点 为 网 络 图 的 割 点 。 例 如 ， 网 络 图 g2 中 的 顶点 9 为 审 点 。 


9.5.2 ”网 络 图 的 R 语 言 实现 


在 R 中 ，igraph 包 是 专门 用 来 处 理 网 络 图 的 。 使 用 前 先 通过 install.packages ("igraph") 下 载 安装 。 


igraph 包 非常 容易 创建 各 种 常规 图 ， 其 中 包括 无 边 图 (make_empty graph 函数 ) 、 星 形 图 (make_star 国 数 ) 、 环 形 图 (make _ ring 函数 ) 、 完 全 图 (make_ full_graph 函 数 ) 、 树 状 图 
(make _ tree 函数) 等 图 形 。 这 些 函 数 的 用 法 都 非常 简单 ， 读 者 请 查阅 帮助 文档 。 


还 有 另外 一 种 创建 各 种 布局 网 络 图 的 通用 方法 ， 就 是 先 创建 一 个 graph 对 象 ， 然 后 利用 plot 函 数 绘制 网 络 图 ， 并 设置 layout 参 数 来 实现 不 同 布局 的 效果 。 以 下 代码 首先 创建 一 个 简单 的 无 向 图 g， 然 后 绘 
制 不 同 布局 的 网 络 图 ， 结 果 如 图 9-21 所 示 。 


> library (igraph) 

> g <- graph(c(2,1,3,1,4,1,5,1,6,1,7,1),directeqd = F) # 创 建 无 向 图 g 

> par (mfrow=c (2, 3)) 

> plot (g, vertex.size=40,layout=layout on grid,main=" 简 单 的 网 格 布局 ") # 简单 的 网 格 布局 
> plot (g, vertex.size=40,layout=layout.auto,main=" 自 动 布 局 ") ## 自 动 布局 

> plot (gr vertex.size=40,layout=layout as star,main=" 星 形 布局 ") # 星 形 布 局 

> plot (g, vertex.size=40,layout=layout.circle,main=" 环 形 布 局 ") # 环形 布局 

> plot (g, vertex.size=40,layout=layout randomly,main=" 随 机 布局 ") # 随机 布局 

> plot (g, vertex.size=40,layout=]layout as tree (g) ,main=" 树 状 布局 ") # 树 状 布局 

> par (mfrow=c (1,1)) 


自动 布局 


星 形 布局 


简单 的 网 格 布局 


随机 布局 


图 9-21 不 同 布局 的 网 络 图 


网 络 关 系 图 包括 三 大 元 素 : 点 、 边 、 点 与 边 的 标识 。 表 9-10 所 示 为 顶点 与 边 的 常用 参数 。 


表 9-10 网络 图 绘图 参数 描述 


本 元 而 
点 边框 颜色 ， 默 认为 "black"， 输 入 NA 则 不 显示 边框 
label | 点 标签 ,设置 为 NA 则 不 显示 标签 
点 标签 距离 点 的 圆心 距离 ， 默 认为 0 
边 颜 色 ， 默 认 值 "darkgrey" 
边 样式 ， 默 认为 1， 表 示 实 线 


这 些 参 数 的 设置 一 般 有 两 种 方法 。 第 一 种 可 以 用 V (g) $parameter="value" 来 设置 点 的 参数 ; 利用 FE (g) $parameter="value" 来 设置 边 的 参数 。 第 二 种 方法 是 直接 在 plot 遂 数 中 设置 参数 ， 美 化 网 络 


图 。 例 如 ， 想 对 网 络 图 g 的 点 和 线 做 一 些 调整 ， 有 两 种 方法 实现 。 执 行 以 下 代码 得 到 的 结果 如 图 9-22 所 示 。 


> 韦 对 网 络 图 9 进行 美化 
> library (RColorBrewer) 
<- seq (1,3,length.out=ecount (9g)) # 生 成 边 的 权重 


> weight 

> # 方法 一 

> V(g) $color <- brewer.pal (9,"Set1") [1:vcount (9) ] # 设置 点 的 填充 颜色 

> V(g) $frame.color <- NA # 不 显示 点 边框 

> V(g) $label .color <-"white" # 设置 点 标签 颜色 为 白色 

> V(g) $label.font <- 2 # 设置 点 标签 的 字体 为 粗 体 
> V(g) $label.cex <- 2 # 设置 点 标签 字体 大 小 

> El(g)$width <- weight # 根据 边 的 权重 设置 边 的 粗细 
> E(g) $color <- "steelblue4" # 设置 边 的 颜色 

> E(g)$lty <- 2 # 设置 边 为 虚线 

> plot (g,main=" 对 网 络 图 9 进行 美化 ") 

> # 方法 二 

> plot (g, vertex.color=brewer.pal (9,"Set1") [1:vcount (g)], 

十 vertex.frame.color=NA, vertex.1label .color="white", 

十 vertex.1label .font=2,vertex.1label .cex=2, 

十 edge .width=weight,edge.color="steelblue4",edge.1lty=2, 

十 main=" 对 网 络 图 9 进行 美化 ") 


图 9-22 ”对 网 络 图 g 进 行 美化 
除了 plot () 函数 绘图 之 外 ， 还 可 以 使 用 函数 tkplot () 与 rglplot () 来 制作 交互 图 与 3D 图 。 交 互 图 可 通过 界面 直接 设置 相应 点 与 边 的 颜色 、 大 小 等 属性 ， 还 可 以 方便 地 拖 动 点 来 布局 。 当 然 ， 也 可 以 
设置 自 带 的 layout 参 数 来 布局 。rglplot () 函数 源 于 rgl 包 ，3D 作 图 可 以 让 社交 网 络 关系 图 更 加 清晰 。 


通过 tkplot (g) 对 网 络 图 g 绘 制 交 互 图 ， 并 通过 layout 选 择 不 同 的 布局 ， 如 图 9-23 所 示 。 


通过 rglplot (g) 对 网 络 图 g 绘 制 3D 图 ， 通 过 鼠标 滚轮 对 图 进行 放大 或 缩小 ， 拖 折 鼠标 可 以 从 不 同 角度 观察 网 络 图 ， 如 图 9-24 所 示 。 


图 9-23 ”利用 tkplot (g) 绘制 交互 图 ， 选 择 不 同 布局 


RGLdevicellfous] 7 Ems [7 ro gove 1 Pou x 


图 9-24 利用 rglplot (g) 绘制 3D 图 


在 游戏 社交 中 ， 总 有 一 部 分 人 之 间 的 社交 较为 密切 ， 比 如 经 常 一 起 组 队 玩 副本 ， 可 以 利用 用 户 的 社交 行为 数据 划分 社 群 结构 ， 社 群 结构 的 特点 为 : 社 群 内 边 密度 要 高 于 社 群 间 边 密度 ， 社 群 内 部 连接 相 
对 紧密 ， 各 个 社 群 之 间 连 接 相对 稀 琉 。 社 群发 现 可 以 让 我 们 更 好 地 改善 游戏 社交 ， 此 发 现 对 于 游戏 内 物品 交易 也 有 一 定 的 适用 性 。 


igraph 包 在 社 群发 现 上 有 比较 完善 的 算法 支持 ， 包 括 社 群发 现 常用 的 5 种 算法 : 点 连接 、 随 机 游 走 、 自 旋 玻璃 、 中 间 中 心 度 和 标签 传播 等 。 表 9-11 所 示 是 各 种 算法 的 原理 及 R 实 现 。 
表 9-11 不 同 社 群 划分 算法 
算 法 原 理 R 实现 效 来 
如 果 一 个 点 和 某 社 群 之 间 有 线 连 最 差 ， 常 第 是 某 一 大 类 超 


中 | 接 ， 则 把 此 点 归于 该 社 群 中 Se 级 多 
利用 距离 相似 度 ， 用 合并 层次 聚 运行 时 间 短 ， 但 是 效果 不 
随机 游 走 类 方法 建立 社 群 walktrap.community 是 特别 好 
白 施 玻璃 关系 网 络 看 成 是 随机 网 络 场 ， 利 ee 耗 时 长 ， 适 用 较为 复杂 的 
用 能 量 函 数 来 进行 层次 聚 类 we 情况 
We 找到 并 删除 中 间 中 心 度 最 弱 ， 并 . Ei 人 会 翘 设置 相 1 
中 间 中 心 度 以 此 分 型 雪 到 划分 不 同 的 大 群落 edge.betweenness.community 耗 时 长 ， 参 数 设置 很 重要 
通过 相 邻 点 给 自己 打 标 签 ， 相 后 8 与 特征 向 量 组 合 忆 
祭 签 传播 通过 相 邻 点 给 目 己 打 标 相同 en 可 以 与 特征 问 量 组 合 应 


用 ,适用 于 话题 类 


的 标签 一 个 类 


对 玩家 划分 社 群 结构 后 ， 可 以 通过 plot 对 结果 进行 可 视 化 。 执 行 下 面 代码 得 到 的 结果 如 图 9-25 所 示 。 


> library (igraphdata) 
> data (karate) 


fc1 <- multilevel.community (karate) # 多 层次 聚 类 


> 

> fc2 <- edge.betweenness.community (karate) # 边 中 间 性 聚 类 

> fc3 <- walktrap.community (karate) # 随机 游 走 聚 类 

> fc4 <- infomap.community (karate) # ijnfomap 算 法 聚 类 
> fc5 <- fastgreedy.community (karate) # 快速 贪 焚 聚 类 

> fc6 <- label .propagation.community (karate) # 标签 传播 

> Te 11st <= list(fel, ftce2., 3 feyfe6) 

> algorithm list <- c("multilevel", "edge.betweenness","walktrap", 
十 "infomap" "fastgreedy", "label .propagation") 
> par (mfrow=c (2,3) ,mar=c (1,1,2,1)) 

> for(i in 1:6)1{ 

十 plot (fc list[[i]],karate,main=algorithm list[[i]]) 

本 村 


由 图 9-25 可 知 ， 不 同 群体 的 节点 用 不 同 的 颜色 填充 ， 相 同 社 群 的 节点 也 用 线圈 在 一 起 ， 容 易 识 别 社 群 。 虽 然 不 同 算法 分 类 社 群 个 数 有 所 区 别 ,但 是 5、6、7、11、17 这 5 个 节点 在 6 种 算法 中 都 聚 为 一 
， 说 明 这 5 个 节点 的 社交 性 很 强 ， 从 而 可 以 结合 业务 知识 对 发 现 的 社 群 设 定 策略 方案 。 


状 


multilevel dege.betweenness _ walktrap 


fastgreedy 


图 9-25 ”利用 社交 群体 划分 


9.5.3”R 与 Gephi 的 结合 


Gephi 是 专业 的 复杂 网 络 分 析 软 件 ， 因 为 基于 Java 开 发 ， 使 用 DpenGL 作 为 可 视 化 引擎 ， 所 以 需要 人 在 本 机 安装 jre1.7 以 上 版 本 ， 才 能 正常 使 用 Gephi。 在 其 主页 http://gephi.org/ 上 可 以 下 载 最 新 的 版 
本 ， 其 针对 Windows、Linux、Mac X 系 统 都 提供 了 发 布 版 可 以 直接 安装 。 


近 几 年 手机 端 网 游 越 来 越 重 视 游戏 用 户 社交 性 设计 。 下 面 这 款 游戏 的 玩法 设计 特别 强调 强 社交 性 : 用 户 可 以 在 游戏 内 组 建 家族 ， 家 族 成 员 有 不 同 的 职务 等 级 ， 用 户 也 可 以 在 游戏 内 给 好 友 赠 送 道具 。 社 
交 设 计 界 面 如 图 9-26 所 示 。 


+ 咯 6802 晤 3965w 4 全 1099w 


家 
党 
党 


{ 


图 9-26 ”游戏 玩家 社交 性 设计 


我 们 从 数据 库 中 收集 抽取 了 部 分 用 户 的 家 族 数据 (Nodes) 和 好 友 沟 通 数据 (Links) 。 其 中 Nodes 数 据 集 包括 ID (用 户 ID) 、Label (用 户 名 称 ) 、Group (所 属 家 族 ) 、Level (等 级 ) 等 信息 ; 
Links 数 据 集 包括 Source (发 起 方 ) 、Target (接收 方 ) 和 Weight (斗气 数量 ) 等 信息 。 接 下 来 ， 分 别 利 用 R 语 言 和 Gephi 工 具 对 这 款 游戏 的 社交 性 进行 分 析 。 


在 R 中 ， 利 用 graph.data.frame 函 数 可 以 很 轻松 地 将 data.frame 转 换 为 graph.object， 利 用 as.data.frame 函 数 可 以 查看 graph.object 中 的 顶点 、 边 的 数据 情况 。 现 在 需要 将 graph.object 对 象 的 顶点 大 
小 设置 为 10， 顶 点 颜色 按照 Group 进行 填充 ， 顶 点 标签 显示 玩家 名 称 ， 顶 点 标签 字体 大 小 设置 为 0.7; 并 将 边 宽度 设置 为 Weight 变 量 归 一 化 后 值 的 5 倍 ， 箭 头 大 小 设置 为 0.5。 通 过 plot 函 数 绘制 出 来 的 网 络 
图 如 图 9-27 所 示 。 


# 导入 社交 数据 

Links <- read.csv ("Links.csv") 

Nodes <- read.csv ("Nodes.csv") 

# 转换 成 graph .object 对 象 

Jibrary (igraph) 

g <- graph.data.frame (Links,directed = T,vertices = Nodes) 


VVvVVvVVvVvVvVvyYV 


9 
IGRAPH DN-- 77 254 -=-- 
+ attr: name (v/c), Label (v/c), Group (v/n), Level (v/n), Weight (e/n) 
+ edges (vertex names): 
[1] 1 ->0 2 ->0 3 ->0 3 ->2 4 ->0 5 ->0 6 ->0 7 ->0 8 ->0 9 ->0 11->10 11->3 11->2 11->0 12->11 13->11 14->11]1 
+ http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... omitted several edges 


> # 绘制 网 络 图 

> # 对 顶点 进行 美化 

> V(g)$size <- 10 

> V(g) $color <- Nodes$Group 

> V(g) $label <- as.character (Nodes$Label) 

> V(g) $label.cex <- 0.7 

> # 对 边 进行 美化 

> El(g)S$Swidth <- (Links$Weight-min (LinksSWeight) )*x5/ (max (LinksSWeight) -min (Links$-Weight)) 
> 也 (9)Sarrow.size <- 0.5 

> plot (g,main=" 用 户 社会 网 络 图 ") 


从 图 9-27 所 示 的 网 络 图 中 可 以 看 出 ,不同 家 族 的 成 员 基 本 紧密 联系 在 一 起 ， 并 通过 一 些 关 键 成 员 与 其 他 家 族 成 员 联 系 。 例 如 我 们 发 现 右 下 角 的 那个 社 群 的 成 员 先 通过 user1 用 户 ， 表 通过 user12 用 户 与 
其 他 社团 成 员 联 系 在 一 个 大 网 络 图 中 。 接 下 来 ， 尝 试 移 除 user12 用 户 ， 看 看 此 时 的 网 络 图 会 变 成 什么 样子 。 执 行 以 下 代码 得 到 的 网 络 图 如 图 9-28 所 示 。 


# 移 除 茶 个 用 户 后 的 网 络 图 

remove.u <- "userl2" 

remove.v <- which(V(g)s$Label!=remove.u 

g.new <- induced.subgraph (g, remove.v) 

plot (g.new,vertex.size=10, 
vertex.color=Nodes[-which (Nodes$Label==remove.u),"Group"], 
vertex.1label=as.character (setdiff (Nodes$Label, remove.u)), 
vertex.1label .cex=0.7, 
main=paste0(" 移 除 ", remove.u, "用 户 后 的 网 络 图 ") ) 


~ 一 


本 和 省: 丰采 VAN 


用 户 社 会 网 络 图 


移 除 userl2 用 户 后 的 网 络 图 


图 9-28” 移 除 uset12 用 户 后 的 网 络 图 


从 图 9-28 所 示 的 网 络 图 中 可 知 ， 当 user12 在 游戏 中 流失 后 ， 图 中 上 方 社 群 的 部 分 玩家 成 为 无 组 织 状 态 ， 游 离 在 网 络 图 外 ; 右 侧 社 群 的 玩家 虽然 还 跟 user1 联 系 在 一 起 ， 但 是 user1 已 经 失去 了 跟 整 体 游戏 
网 络 的 联系 。 此 时 运营 要 想 把 这 个 小 社团 拉 回 到 大 网 络 图 中 ， 只 需要 对 user1 下 工夫 即 可 。 


现在 ， 通 过 Gephi 工 具 来 分 析 该 款 游 戏 的 社交 性 。 首 先 新 建 一 个 项 目 ， 然 后 在 数据 资料 选择 中 点 击 输入 电子 表格 ， 将 节点 数据 集 Nodes 和 边 数 据 集 Links 导 入 Gephi 中 ， 如 图 9-29 所 示 。 


| 后 入 电子 表格 3 
步骤 常规 选项 
1. 常规 选项 


2. 输入 设置 选择 一 个 CSy 文 件 输入 : 


C: ‘Users\daniel. xie\Desktop\llodes. csv 


2312 


= 二 
i bh 


ED 


瞩 台 划 规 选项 


的 和 选择 一 个 Csy 文 件 输入 : 


图 9-29 ”将 外 部 的 csv 数 据 导 入 Gephi 中 


把 数据 导入 Gephi 后 ， 在 概览 的 图 窗口 已 生成 一 个 简单 网 络 图 ， 右 上 角 显 示 一 共有 77 个 节点 和 254 条 边 ， 创 建 的 是 有 向 图 ， 如 图 9-30 所 示 。 
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图 9-30 ”导入 边 数据 后 生成 的 网 络 图 


自动 生成 的 网 络 图 相对 来 说 比较 简单 ， 利 用 左上 角 的 外 观 设置 来 改变 节点 颜色 。 方 法 是 在 数值 设 定 下 的 选择 一 种 泻 染 方式 的 下 拉 列 表 框 中 选择 Group， 让 不 同 组 别 节 点 用 不 同 颜 色 表示 ; 并 单 击 图 下 方 
的 T 按 钮 ， 显 示 节 点 标签 。 经 过 简单 美化 后 的 结果 如 图 9-31 所 示 。 


图 9-31 经 过 初步 美化 后 的 网 络 图 


在 左下 角 的 布局 功能 中 选择 一 个 布局 选项 ， 可 以 在 下 拉 人 列表 框 选择 自己 希望 的 网 络 图 布局 ， 并 调整 布局 参数 。Gephi 中 比较 有 特点 的 是 基于 力 导 向 的 Force Atlas、ForeAtlas2 布 局 和 明 一 几 的 Yifan 
Hu、Yifan Hu 比例 的 布局 。 选 择 Yifan Hu 布局 后 单 击 运行 ， 待 网 络 生成 稳定 后 选择 预览 模块 ， 在 左边 的 预览 设置 中 勾 选 显示 标签 ， 调 整 标签 文字 大 小 后 单 击 “ 刷 新 ”按钮 ， 得 到 网 络 图 如 图 9-32 所 示 。 


结果 跟 R 操 作 的 差不多 ， 右 上 角 的 橘 色 社 群 紧密 围绕 在 user1 周 围 。 最 后 ， 想 移 除 user12 用 户 ， 查 看 变化 后 的 网 络 图 。 在 概览 模块 中 的 图 中 ， 选 择 user12 节 点 ， 通 过 单 击 鼠标 右键 将 其 移 除 。 此 时 的 网 络 
图 如 图 9-33 所 示 。 


口福 景 巴 设 编 训 ~ + 


图 9-32 ”在 预览 中 的 网 络 图 


custen [255, 255, 255] | 
.0 


图 9-33” 移 除 user12 玩 家 后 的 网 络 图 


在 右 下 角 有 SVG/PDF/PNG 字 样 ， 单 击 可 以 调 出 输出 窗口 ， 把 生成 的 网 络 图 以 PDF/PNG/PDF 的 格式 保存 到 本 地 。 


9.5.4 案例: 分 析 用 户 物品 购买 分 类 


对 9.3 节 中 用 户 购买 道具 的 data_matrix_new 数 据 集 ， 利 用 社会 网 络 分 析 技 术 分 析 用 户 物品 购买 分 类 。 需 要 先 将 data_matrix_new 数 据 集 转 换 成 graph.data.frame 函 数 能 识别 的 格式 类 型 。 例 如 ， 某 一 位 
用 户 如 果 购 买 过 感恩 大 礼包 、 新 手 礼包 和 0.1 元 大 礼包 ，data_matrix_new 数 据 中 的 存储 形式 如 下 。 


需要 将 1072044535 用 户 购买 数据 变 成 以 下 格式 。 


感恩 大 礼包 新 手 礼 包 
感恩 大 礼包 0.1 元 


执行 以 下 代码 ， 完 成 数据 转换 工作 。 


> # 将 data _ matrix _ new 数据 转换 成 Erom、to 的 形式 


> 


data new <- c() 


> for(i in 1:nrow(dqata matrix new) ) { 
item.i <- colnames (data _ matrix new) [which (data matrix newl[i,]==1)] 


VV+ 十 十 十 十 十 十 十 十 


OOPAODP 


item.i.num <- length (it 
from <- c();to <- c() 


for(m in 1: (item.i.num-] 


em.1) 


from <- c(from,item.il[ 


) ) { 
-Cc((item.i.num-m+1) :item.i.num) ] ) 


to <- c(to,item.i[-c( 


} 


1:m) ]) 


data new <- rbindl(data new,matrix(c(from,to),ncol = 2)) 


} 
data new <- as.data.frame 
head (data new) 

V1 V2 


(data new) 


感恩 大 礼包 新 手 礼 包 


0.1 元 大 礼包 8 条 钥 趟 


8 条 钥匙 限量 版 角色 
0.1 元 大 礼包 限量 版 角色 
38000 人 金币 限量 版 角色 
限量 版 角色 新 手 礼包 


数据 转换 完成 后 ， 还 需要 利用 sqldf 包 汇总 相同 的 记录 ， 再 对 统计 后 的 数据 按照 频数 进行 降序 排序 。 


> 大 对 转换 后 的 数据 进行 汇总 ， 并 按照 频数 进行 降序 排序 


> 


library (sqldf) 


> data count <- sqldf ("select Vl,V2,count(*) from data new group by Vl,V2") 
Loading required package: tcltk 
> colnames (data count) <- c("from","to","qgty") 


> 
> 


data count <- data count[ 


order (data counts$qty,decreasing = T),] 


> head (data count) 

from to qty 
43 15000 人 金币 8 条 钥匙 255 
167 ”8 条 钥匙 限量 版 角色 141 
42 15000 人 金币 70000 人 金币 120 
189 解锁 滑板 限量 版 角色 120 
40 ”15000 人 金币 50 条 钥 是 108 
54 15000 人 金币 限量 版 角色 108 


选取 data_count 前 100 行 数据 进行 社 群 结构 分 析 ， 通 过 garph.data.frame 函 数 将 数据 框 转换 成 graph.object， 利 用 多 种 聚 类 算法 进 


> 
> 
> 
> 
之 
> 
> 
> 
> 
> 
> 
> 
十 
> 
> 
十 
十 
> 


# 将 数据 转换 为 graph .object， 并 利用 多 种 聚 类 算法 发 现 社 群 结构 


Jibrary (igraph) 

G <- graph.data.frame (dat 
E(G) Sweight <- data count 
fcl <- multilevel .communi 
fc2 <- edge.betweenness.c 


a count{[1:100,1],directed = F) 
[1:100, "gty"] 

ty (G) # 多 层次 聚 类 
ommunity(G) # 边 中 间 性 聚 类 


fc3 <- walktrap.community(G) # 随 机 游 走 聚 类 


fc4 <- infomap .community ( 
fc5 <- spinglass.communit 
fc6 <- label .propagation. 
fc list <- list(fc]l,fc2,f 


G) #infomap 算 法 聚 类 
y(G) # 自 旋 玻璃 社 群 聚 类 
community(G) ## 标签 传播 
Cjtedktecs5te6) 


algorithm 1ist <- c(" 多 层次 聚 类 ", " 边 中 间 性 聚 类 "， "随机 游 走 聚 类 "， 
"infomap 算 法 聚 类 "," 自 旋 玻 璃 社 群 聚 类 ", "标签 传播 ") 


par (mfrow=c (2, 3)) 
for(i in 1:6)f{ 


plot (fc list[[i]],G,main=algorithm list[[i]]) 


} 


par (mfrow=c (1,1)) 


图 9-34 ”对 玩家 物品 购买 数据 进行 社 群 发 现 
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用 户 


分 


群 ， 通 


过 plot 函 数 绘制 的 图 形 结果 如 图 9-34 所 示 。 


边 中 问 性 聚 类 


随机 游 走 聚 类 


图 9-34 〔 续 ) 


从 图 9-34 可 知 ，infomap 算 法 聚 类 和 标签 传播 算法 不 适合 于 该 数据 ， 这 两 种 算法 都 把 用 户 聚 为 一 类 ;通过 另外 4 种 算法 发 现 的 社 群 结构 能 帮助 我 们 了 解 用 户 购 物 喜 好 分 类 。 多 层次 聚 类 、 边 中 间 性 聚 类 
和 自 旋 玻 璃 社 群 聚 类 算法 均 把 所 有 物品 分 为 四 类 ， 边 中 间 性 聚 类 算法 把 10 块 滑板 、60 块 滑板 和 快速 复活 分 为 一 类 ; 多 层次 聚 类 和 自 旋 玻璃 社 群 聚 也 把 这 三 件 商品 分 在 一 起 ， 另 外 还 把 正版 激活 也 分 在 一 块 。 
说 明快 速 复 活 和 正版 激活 用 户 也 会 购买 滑板 类 道具 ， 运 营 在 玩家 快速 复活 时 ， 推 送 滑板 类 道具 将 有 助 于 提升 滑板 类 的 购买 数量 。 


9.6 小 结 
本 章 详细 介绍 了 用 户 分 析 的 常用 指标 及 算法 模型 。 首 先 介 绍 了 常用 的 分 类 指标 及 LTV 指 标的 计算 及 预测 ; 接着 介绍 了 关联 规则 Apriori 算 法 的 基本 原理 及 实现 ， 对 用 户 购买 的 道具 进行 关联 规则 分 析 ; 然 


后 详细 介绍 了 Ri 语 言 中 用 于 智能 推荐 的 程序 包 recommenderlab， 并 利用 基于 物品 的 推荐 模型 对 单个 用 户 进行 个 性 化 推荐 ;最 后 介绍 了 社会 网 络 图 的 基本 原理 及 R 语 言 实现 ， 还 结合 Gephi 对 用 户 社会 网 络 数 
据 进 行 可 视 化 展示 ， 探 索 用 户 物品 购买 分 类 。 


渠道 是 最 有 效 的 获取 潜在 用 户 的 方式 。 如 何 获取 有 效 的 推广 渠道 并 加 以 维护 ， 进 一 步 挖掘 渠道 用 户 的 潜力 ， 将 是 所 有 游戏 公司 要 不 断 进 行 的 工作 。 我 们 需要 搭建 渠道 数据 分 析 指 标 体 系 ， 对 核心 指标 进 
行 质量 监控 ， 及 时 发 现 渠 道 异常 情况 ， 研 究 如 何 对 不 同 渠 道 用 户 质量 建立 统一 的 评价 标准 ， 进 而 对 不 同 渠道 进行 用 户 评级 ， 使 市 场 推广 做 到 有 的 放 矢 。 


10.1 ”渠道 分 析 的 意 》 


渠道 从 广义 上 讲 就 是 游戏 向 玩家 转移 过 程 的 具体 通道 或 路 径 。 渠 道 本 身 聚 合 了 大 量 的 用 户 群 体 ， 构 成 可 以 使 游戏 向 用 户 转 移 的 平台 ， 


类 似 大 超市 提供 货架 给 供应 商 进行 商品 陈列 销售 。 目 前 很 多 手 游 公 


司 已 经 从 粗放 式 转 向 精细 化 运营， 因为 粗放 式 运 曹 的 搭建 和 维护 成 本 高 ， 用 户 质量 参差 不 齐 ， 性 价 比 差 。 因 此 ， 如 何 获取 有 效 的 推广 渠道 并 加 以 维护 ， 进 一 步 挖掘 渠道 用 户 的 潜力 ， 将 是 我 们 需要 不 断 进行 


的 工作 。 
渠道 分 析 是 把 渠道 数据 与 运营 数据 相 结合 进 行 分 析 ， 进 而 对 未 来 运营 方向 做 决策 时 提供 判断 依据 。 可 以 从 渠道 用 户 的 活跃 、 新 增 、 留 存 、 付 费 等 指标 分 析 渠 道 的 吸 量 和 用 户 黏 性 ， 寻 找 出 适合 游戏 的 最 
佳 渠 道 ， 并 能 识别 出 核心 目标 用 户 ， 建 立 忠 诚 关系 。 例 如 ， 可 以 利用 日 新 增 用 户 和 日 活跃 用 户 指 标 构建 一 项 比值 (每 日 新 增 /每 日 活跃 ) 用 于 简单 判断 玩家 忠诚 度 。 这 个 比值 的 区 间 是 [0，1]， 比 值 越 接近 于 


1， 说 明 新 增 用 户 占 比 越 高 ， 玩 家 忠诚 度 低 ;反之 则 说 明 玩 家 的 忠诚 度 高 。 


表 10-1 是 一 款 游戏 在 10 个 渠道 一 个 月 的 每 日 平均 数据 表现 。 


渠道 ] 


道 


渠道 10 


表 10-1 某 游戏 渠道 数据 


利用 活路 用户、 新 增 用 户 和 日 新 增 /日 活跃 这 三 个 指标 绘制 图 形 ， 查 看 不 同 渠 道 的 吸 量 和 用 户 忠 诚 度 。 
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31.95% 
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335.55% 
32.36% 
30.04% 


40.17% 


由 图 10-1 可 知 ， 渠 道 1、 渠 道 2、 渠 道 3 是 该 款 游 戏 活跃 用 户 的 主要 来 源 ， 可 以 认为 是 一 级 渠道 ， 渠 道 5 和 渠道 9 的 用 户 忠诚 度 较 低 ， 渠 道 6 和 渠道 10 昌 然 用 户 量 没 有 一 级 渠道 大 ， 但 用 户 忠诚 度 高 ， 


些小 渠道 有 适合 该 款 游戏 的 忠诚 用 户 。 
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图 10-1 某 款 游戏 渠道 用 户 数据 柱状 图 


接 下 来 对 新 增 用 户 、ARPPU、 次 日 留存 率 绘制 气泡 图 ， 查 看 不 同 渠道 的 新 增 用 户 质量 。 


渠道 7 ” 渠 让 8 ”渠道 9 
日 新 增 / 日 活跃 


渠道 10 


说 明 这 


> # 绘制 气泡 图 


> channeldata <- read.csv("data 10.1.csv",T) 
> # 选取 新 增 用 户 、ARPPU、 次 日 留存 率 这 三 列 数据 

> channeldatal <- channeldatal[,c(1,3,5,6)] 

> 塌 设置 不 同 渠 道 的 颜色 

> library (RColorBrewer) 

> col <- brewer.pal (11,"Spectral") [2:11] 

> # 设置 气泡 的 最 大 值 和 最 小 值 

> cex.max <- 15 

> cex.min <- 10 


> # 设置 散 点 大 小 


> a <- (cex.max-cex.min)/ (max (channeldatal$ARPPU) -min (channeldatals$Aa 
> b <- cex.min-a*min (channeldatal$ARPPU) 

> cex <- a*channeldatal$ARPPU+D 

> ## 绘制 气泡 图 

> attach (channeldatal) 

> plot (新 增 用 户 , 次 日 留存 府 , cex=cex, col=col,pch=20， 

main=" 各 渠道 新 增 用户 - 次 日 留存 率 -ARPPU"， 


RPPU) ) 


Xx 


十 十 十 


> text (新 增 用 


lab=" 日 均 新 增 用 户 "， 


ylab=" 新 增 用 户 次 日 留存 率 ") 


户 ,次 日 留存 率 , 渠道 名 称 , col="black") 
nneldatal) 


> detach (cha 


各 深 道 新 增 用 户 -次 日 留存 率 -ARPPU 
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图 10-2” 菜 款 游戏 渠道 用 户 数 据 气 泡 图 
由 图 10-2 可 知 ， 渠 道 10 虽 然 日 均 新 增 用 户 最 少 ， 但 是 次 日 留存 率 最 高 ， 说 明渠 道 10 的 用 户 黏 性 高 于 其 他 渠道 ， 渠 道 8 的 气泡 最 大 ， 说 明 其 ARPPU 大 于 其 他 渠道 ， 该 渠道 的 付费 能 力 最 强 。 渠 道 5 的 次 日 


留存 率 只 有 27.86%， 渠 道 的 用 户 回头 率 低 ， 且 ARPPU 处 于 中 下 水 平 ， 说 明 该 游戏 在 渠道 5 的 用 户 质 量 较 差 。 


10.2 ”建立 渠道 数据 监控 体系 


说 到 数据 分 析 监 控 体 系 ， 游 戏 厂 家 需要 根据 自己 的 业务 模式 建立 一 套数 据 分 析 指 标 体系 ， 建 立 适宜 的 数据 分 析 模 型 来 优化 渠道 投放 和 策略 。 根 据 数据 分 析 指 标 监控 渠道 用 户 LTV， 利 用 渠道 指导 用 户 的 
生命 周期 价值 渠道 指导 投放 策略 。 


10.2.1 构建 数据 分 析 指 标 


俗话 说 ，“ 巧 妇 难 为 无 米 之 炊 ”， 无 论 是 做 用 户 分 析 ， 还 是 行为 预测 ， 都 需要 利用 数据 来 支撑 。 但 是 如 何在 海量 复杂 的 原始 数据 中 获取 可 用 的 分 析 数 据 ， 则 需要 根据 自己 的 商业 逻辑 ， 建 立 数据 分 析 指 
标 体 系 ， 明 确 分 析 的 方法 和 模型 。 指 标 体系 最 终 还 是 要 服务 于 业务 分 析 ， 因 此 从 分 析 的 初衷 来 看 ， 要 服务 于 渠道 评估 。 最 佳 的 渠道 评估 策略 分 为 3 部 分 : 数量 、 质 量 和 收入 。 


数量 是 衡量 用 户 获取 能 力 的 关键 所 在 。 


数量 


目标 用 户 ， 然 而 这 只 是 分 析 目 标 用 户 的 第 一 步 ， 


质量 维度 的 分 析 主 要 集中 在 用 户 参 与 游戏 情况 的 指标 。 日 活跃 、 一 日 用 户 比 例 、 次 日 留存 率 、7 日 留存 率 等 指标 是 质量 


这 个 转化 率 的 表现 会 带 


图 10-3 评估 渠道 质量 的 三 部 分 


来 很 多 实际 的 问题 ， 需 要 进一步 分 析 。 


重点 关注 的 指标 ， 与 数量 维度 分 析 的 几 个 指标 相 比 ， 更 偏重 解决 投放 的 质量 问题 


收入 维度 是 分 析 渠道 


的 盈利 能 力 情况 ， 这 也 是 开发 者 最 关心 的 部 
和 衡量 渠道 的 收益 能 力 ， 做 好 用 户 获取 成 本 和 用 户 收 益 之 间 的 平衡 ， 


表 10-2 是 10 个 渠道 在 2016 年 1 月 的 日 运营 数据 (渠道 日 概况 .csv) 


日 期 


2016/1/1 
2016/1/1 
2016/1/1 
2016/1/1 
20106/1/1 
2016/1/1 


2016/1/1 


先 从 用 户 数量 的 角度 来 分 析 这 10 个 渠道 


\ 


表 10-2 ” 某 游 戏 渠 道 日 运营 数据 


一 般 从 安装 量 、 注 册 量 、 注 册 转 化 率 、 渠 道 份额 这 4 个 指标 衡量 渠道 获取 用 户 能 力 。 例 如 通过 注册 转化 率 的 表现 ， 可 以 看 出 某 个 


收入 


渠道 的 用 户 是 否 更 贴近 于 此 游戏 的 


维度 分 析 的 基础 。 可 以 看 出 这 4 个 指标 都 是 偏 前 期 关注 的 指标 ， 也 是 推广 初期 需要 


39801 214839 6135 108079 


， 包 括 每 日 新 增 用 户 、 活 跃 用 户 、 付 费用 户 、 新 增 付费 用 户 、 收 入 、 新 增 次 日 留存 率 和 渠道 收入 占 比 等 信息 。 


渠 让 收入 
占 比 


235.00% 


44378 193292 4788 82938 19.19% 
69525 1 70573 2477 44433 10.28% 


74646 170497 2928 


S57087 13.21% 


42694 149968 3264 603599 14.02% 


渠道 C 29349 121022 2810 


49376 


11.42% 


选取 新 增 用 户 、 


活跃 用 户 和 付费 用 户 ， 对 2016 年 1 月 份 31 天 数据 绘制 箱 线 图 ， 结 果 如 图 10-4 所 示 。 


分 。 分 析 收 入 最 常见 的 分 析 维 度 主要 有 收入 、 付 费 人 数 、 付 费 率 、ARPU、ARPPU 等 。 对 收入 的 监控 是 一 个 持续 的 过 程 ， 需 要 不 断 监控 
即 ROI (投资 回报 率 ) 。 


新 增 次 日 
留存 率 


30.10% 
29.40% 
21.70% 
24.60% 
30.40% 
30.80% 


1 8.060% 


> # 导入 渠道 日 运营 数据 
> channel <- teadq.csv(" 渠 道 日 概况 .csvyheaqer=TRUE,fil11=TRUE) 
> # 对 新 增 有 用户、 活跃 用 户 、 付 费用 户 分 渠道 绘制 条 线 图 


> par (m 


合 


mfErow=C (3,1 


L) ) 


> boxplot (新 增 用 户 ~ 渠 道 名 称 ,qal 
十 


CO 


二 CO 


orspace: 


> boxplot (活跃 用 户 ~ 渠 道 名 称 ,qal 


CO 


一 CO] 


orspace: 


> boxplot (付费 用 户 ~ 渠道 名 称 ,qa 


十 CO 


二 COJ 


orspace: :terrain hc] 


> par (mfrow=c (] 


1,1)) 


ta=channe] 
:rainbow 
ta=channel 


,y] 


ab=" 新 增 用 户 " 


hcl 
7 Y 


(10), vial wr Lcd beta 
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(10), varwidth=TRUE,) 
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(10) ,varwidth=TRUI 
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图 10-4 用户 数量 指标 箱 线 图 


由 图 10-4 可 知 ， 渠 道 A、 渠 道 B 都 属于 大 渠道 ， 为 该 款 游戏 提供 了 大 量 的 用 户 ， 不 过 渠道 B 的 用 户 质量 略 低 于 渠道 A， 因 为 从 箱 线 图 可 以 看 出 ， 渠 道 B 的 新 增 用 户 指标 的 中 位 数 大 于 渠道 A， 但 是 在 活跃 用 
户 和 付费 用 户 指标 上 却 低 于 渠道 A， 说 明渠 道 B 的 新 增 用 户 进来 后 的 活跃 度 和 付费 意愿 低 于 渠道 A; 渠道 D、 渠 道 E 在 拉 新 能 力 方面 差 于 渠道 A、 渠 道 B， 渠 道 j 也 为 该 款 游戏 贡献 了 大 量 的 用 户 ， 但 是 在 1 月 份 的 
新 增 用 户 数据 波动 较 大 ;渠道 H、 渠 道 J 属 于 小 渠道 。 


现在 ， 绘 制 各 渠道 的 一 月 收入 曲线 图 ， 碍 看 各 渠道 在 一 月 份 的 收入 情况 ， 如 图 10-5 所 示 。 


> ## 将 日 期 变量 转换 为 日 期 格式 
> channel$ 日 期 <- as.Date (channe1$ 日 期 ) 


> library (lattice) 

> xyplot (收入 ~ 日 期 | 渠道 名 称 , data=channel,type="1", 

十 lwd=2, layout=c (5, 2), 

十 xlim=c (min (channe15s 日 期 ) -l,max (channel1$ 日 期 )+1)， 
再 main=" 渠 道 收 入 一 月 曲线 图 ") 


秦 道 收入 一 月 曲线 图 
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图 10-5 各 渠道 收入 曲线 图 


: 
: 
: 
: 


由 图 10-5 可 知 ， 渠 道 A、 渠 道 B、 渠 道 C 在 一 月 份 后 半 段 上 升 明 显 ， 处 于 收入 上 升 阶 段 ; 渠道 D、 渠 道 E 由 于 新 增 用 户 逐 渐 减 少 ， 老 用 户 付费 意愿 低 于 新 用 户 ， 所 以 一 月 份 的 收入 都 处 于 下 滑 阶 段 ; 渠道 
F~ 渠 道 | 属 于 小 渠道 ， 收 入 稳定 但 份额 不 大 。 


最 后 ， 利 用 Median-IQR 方 法 分 析 ARPPU、ARPU、 新 增 次 日 留存 率 和 新 增 七 日 留存 率 等 指标 ， 查 看 不 同 渠道 在 一 月 份 数据 的 集中 及 离散 程度 。 这 里 使 用 中 位 数 作为 衡量 中 心 的 统计 量 ， 应 用 四 分 位 距 
(IQR) 作为 离散 指标 的 统计 量 更 有 意义 。 与 更 常用 的 均值 和 标准 差 相 比 ， 这 些 统计 量 在 有 离 群 值 存在 时 更 加 稳健 。 计 算 每 个 渠道 所 有 数据 的 这 两 个 统计 量 的 代码 如 下 。 


> # 自 定义 求 中 位 数 和 四 分 位 距 函 数 

>mystats<- function (x) c (Median=median (x,na.rm=T),1QR=IQR (x,na.rm=T)) 
> # 求 出 各 指标 的 统计 值 

> library (doBy) 


> result <- summaryBy (ARPPU+ARPU+ 新 增 次 日 留存 率 + 新 增 7 日 后 留存 率 ~ 渠 道 名 称 ， 
十 data=channel,FUN = mystats) 
> result 

渠道 名 称 ARPPU .Medi an ARPPU.IOR ARPU .Median ARPU.IOR 新 增 次 日 留存 率 .Median 
1 渠道 A 11:54 1.800 0.28 0.. 汪 15 0.324 
2 渠道 B 18.10 1.505 0.23 0.045 0.270 
3 渠道 C 16.00 "05 0.23 0.075 0.328 
4 渠道 D 16;59 1..160 0.26 0.070 0.309 
渠道 EE 16.14 1.420 0.27 0.050 0.311 
6 渠道 已 17.24 人 二 5 0.26 0.090 0 .322 
J 渠道 G 21%.35 3.305 0.09 0.060 0.224 
8 渠道 H 11.03 L295 0.51 0.100 0.191 
9 渠道 工 Ll2 3..530 0.28 0.095 0.314 
10 渠道 可 17.97 5555 0.25 0.055 0.263 

新 增 次 日 留存 率 .IOR 新 增 7 日 后 留存 率 .Medqian 新 增 7 日 后 留存 率 .IQR 

1 0.0745 0 5 Q.:011 
2 0.0250 0.066 0.005 
3 0.0380 0.114 0.008 
4 0.0995 0.100 0.037 
3 0.0475 0.103 0.042 
6 0..0205 0.075 0.012 
3 0.0540 0.048 0.012 
8 0.0095 0.054 0.008 
9 0.0285 0.089 0.017 
10 0.0345 0.064 0.010 


各 指标 的 统计 结果 出 来 后 ， 利 用 四 象限 分 析 法 来 查看 各 渠道 的 分 布 情况 。 其 中 横 轴 是 中 位 数 (Median) ,代表 数 据 的 中 心 ， 纵 轴 是 IQR (四 分 位 距 ) ， 代 表 数 据 的 分 散 情况 ， 并 在 横 轴 上 增加 10 个 渠道 
中 位 数 的 均值 作为 分 界 直线 ， 在 纵 轴 上 增加 10 个 渠道 IQR 的 均值 作为 分 界 直线 。 运 行 以 下 R 语 言 代码 的 结果 如 图 10-6 所 示 。 


> # 将 需要 绘制 四 象限 图 的 指标 赋予 name 对 象 
> name <- c("ARPPU", "ARPU" "新 增 次 日 留存 率 "，" 新 增 7 日 留存 率 " 
> # 利用 fOr 循环 经 会 制 四 个 四 象限 : 分 布 图 
par (mfrow = C(272) ) 
for(i in 1:4)f{ 
plot (result[,2*i],result[,2*i+1l],type = "n", 
cl( 
cl( 


> 

> 

十 

十 xlim=c (0.95*min (result[,2*i]),1.05*max(result[,2*i]))， # 设置 横 轴 坐标 轴 范 转 
十 ylim=c (0.95*min (result[,2xi+1])，1.05xmax(zesult[,2xi+1]))，# 设置 纵 轴 坐标 轴 范 转 
十 main = paste0 (name [i]," 四 象限 图 ")， 

十 xlab = "中 位 数值 ", ylab” = "四 分 位 距 值 ") # 绘 制 散 点 图 

+ abline(lv = mean(result[,2*i]),lty = 2,col = "green") # 添加 重 直 直线 

+ abline(h = mean(result[,2*i+1]),lty = 2,col = "blue") # 添加 水 平 直 线 

十 text (result[,2*i],result[,2*i+1],result[,1], 

+ col = "black",cex = 0.8,font=2) # 在 图 中 打印 出 渠道 名 称 
十 

> 


} 
par (mfrow=c (1,1)) 


ARPPU 四 象限 图 ARPPU 四 象限 图 
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图 10-6 ”各 指标 四 象限 分 布 图 


由 图 10-6 可 知 ， 渠 道 H 属 于 低 价 值 用 户 ， 该 渠道 的 ARPPU、 新 增 次 日 留存 率 和 新 增 7 日 留存 率 均 低 于 其 他 渠道 ， 说 明 该 渠道 的 付费 用 户 的 人 均 付 费 额 不 高 ， 且 新 增 用 户 的 黏 性 也 低 于 其 他 渠道 ， 虽 然 
ARPU 的 中 位 数 高 于 其 他 渠道 ， 但 是 波动 性 也 大 ， 说 明 不 同日 期 的 活跃 用 户 人 均 付 费 额 变化 大 ， 可 能 由 于 运 曹 在 该 渠道 做 活动 导致 ， 但 是 也 不 排除 有 部 分 用 户 有 刷 道 具 行为 ， 需 要 引起 警惕 。 


渠道 A 和 渠道 C 同 属于 用 户 黏 性 高 的 渠道 ， 因 它们 在 新 增 用 户 次 日 留存 率 和 新 增 7 日 留存 率 的 中 位 数 均 高 于 其 他 渠道 ， 且 1QR 值 相对 较 小 (但 渠道 A 在 新 增 次 日 留存 率 波动 略 大 ) ， 综 合 来 说 这 两 个 指标 数 
据 表 现 稳 定 ; 渠道 D 在 新 增 次 日 留存 率 和 新 增 7 日 留存 率 的 IQR 值 很 大 ， 说 明 波动 大 ， 可 能 存在 某 些 天 数 有 用 户 刷 量 导致 留存 率 异 常 。 


10.2.2 ”建立 渠道 数据 监控 体系 


1. 监 控 渠 道 LTV 

通过 统计 渠道 用 户 的 生命 周期 价值 (LTV) 来 衡量 渠道 玩家 对 游戏 所 产生 的 价值 ， 可 以 看 成 是 一 个 长 期 累积 的 ARPU，LTV 被 定 为 是 能 否 取 得 高 利润 的 重要 参考 指标 。 

LTV 的 统计 逻辑 是 : 记录 某 一 天 新 增 的 用 户 从 注册 当天 起 ， 累 计 的 收入 “( 平 均值) 。 例 如 ，LTV-3 为 某 批 用 户 在 注册 起 第 三 天 的 累计 收入 (平均 值 ) ， 即 LTV-N = N 日 累计 收入 /新 增 玩家 数 。 
表 10-3 是 10 个 渠道 在 2016 年 1 月 的 每 日 新 增 用 户 的 LTV 统 计 (渠道 用 户 LTV 统 计 .csv) ， 可 以 利用 该 数据 监控 渠道 用 户 的 生命 周期 ， 并 对 比 不 同 渠道 的 用 户 质量 。 


表 10-3 ”渠道 用 户 LTV 统 计 


2016/1/23 渠道 A 0. 本 


| wn | et | wm | ot | rm | i | en [om | me | 5 | i 
oo | WA | 00 | om | om | om | on | on | om | om| i | i 
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ona | BA | om om | osm | om | owl onl oslo | o% | 
2016/1/25 | 渠道 A 41615 | 038 | 051 | 057 | 0.61 | o64 0.73 1 
om | wi | sa | om | om | os | os [06 om | 
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监控 每 个 渠道 每 日 的 LTV， 例 如 ， 对 2016/1/31 的 渠道 A 绘制 条 形 图 ， 执 行 以 下 代码 得 到 的 结果 如 图 10-7 所 示 。 


渠道 A 用 户 生 命 周 期 价值 


LIV.] LIV.2 LIV.3 LIV.4 LIV.3 LIV.6 LIV.7 LIV.14 LIV.30 
不 同 生 命 周 期 价值 


图 10-7 ”渠道 A 的 LIV 条 形 图 
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1.0 


0.8 
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text (seq(0.6,10.4,1length.out = 9),as.matrix (datal) /2, 
labels = as.matrix (datal), 
col="black", font = 2) 


> LTV <- read.csv ("渠道 用 户 LTV 统 计 .csv",header = TT) 

> # 对 31 日 的 渠道 A LTV 数 据 绘制 条 形 图 

> datal <- LTV[LTV$ 日 期 =='2016/1/31' & LTVS 渠 道 名 称 ==" 渠 道 RAR" 4:12] # 提取 数据 
> ## 绘制 渠道 A 用 户 在 不 同时 期 的 LIV 柱状 图 

> barplot (as.matrix(datal),col = "grey",border = FE, 

+ main=" 渠 道 RAR 用户 生 命 周 期 价值 ",XLab=" 不 同 生命 周期 价值 ") 

> # 添加 LTV 值 

> 

十 

十 


接 下 来 对 不 同 的 渠道 绘制 点 图 ， 对 比 渠 道 间 的 付费 能 力 ， 选 取 2015/1/31， 对 第 1 日 LTV、 第 3 日 LTV、 第 7 日 LTV、 第 14 日 LTV 和 第 30 日 LTV 等 指标 绘图 。 执 行 以 下 代码 得 到 的 结果 如 图 10-8 所 示 。 


> 坦 绘制 点 图 

> x <- LTV[LTVS$ 日 期 =='2016/1/31', c(4,6, 10:12)] 

rownames (x) <- LTV[LTVS$ 日 期 =='2016/1/1',2] 

x <- as.matrix (x) 

library (lattice) 

dotplot (x, groups = FALSE,1layout = c(1,5), 

aspect=0.5,origin=0,type=c ("p", "h"), 

main=" 不 同 渠 道 的 LTV 对 比 "， 
xlab="LTV") 


相 相 二 YYWOY 


由 图 10-8 可 知 ， 渠 道 D、 渠 道 E 的 LTV 高 ， 其 中 渠道 E 用 户 在 后 期 的 付费 金额 会 大 于 渠道 D， 渠 道 F 和 渠道 G 的 人 均 付 费 金 额 处 于 较 低 水 平 。 


不 同 汇 道 的 LTVX 


LIV.14 
LIV.7 
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图 10-8 不 同 渠 道 的 LIV 点 图 
2. 渠 道 新 增 用 户 留存 监控 
针对 某 天 登录 的 活跃 用 户 群 ， 持 续 跟踪 用 户 的 登录 行为 进行 ， 通 过 跟踪 曲线 可 以 了 解 到 不 同 批 次 用 户 的 留存 情况 (可 以 用 来 指导 营销 和 推广 ) ， 同 时 也 能 够 反映 游戏 的 品质 。 


新 注册 第 N 天 留存 用 户 数 定义 : 各 渠道 新 注册 用 户 从 注册 之 日 起 ， 在 这 批 用 户 中 往 后 推 第 N 天 (当日 不 计 入 天 数 ) 同一 渠道 登录 过 游戏 的 用 户 总 数 ， 记 为 渠道 在 x x 注册 日 期 第 N 天 留存 用 户 数 。 例 如 1 月 
1 日 A 渠道 新 注册 用 户 数 为 1000 人 ， 那 么 1 月 1 日 的 注册 当天 留存 用 户 会 记录 为 1000。 接 下 来 观察 1 月 1 日 A 渠道 注册 的 1000 用 户 在 1 月 2 日 的 登录 情况 ( 同 渠道 ) ， 我 们 假设 1000 人 中 ， 有 700 人 在 1 月 2 日 同 渠 
道 登 录 了 ， 那 么 会 记录 A 渠道 1 月 1 日 注册 用 户 的 第 1 天 留存 人 数 为 700。 同 理 ， 当 这 1000 人 在 1 月 3 日 有 300 人 在 同 渠道 登录 时 ， 会 记录 A 渠道 1 月 1 日 的 新 注册 用 户 的 第 2 天 留存 用 户 数 为 300。 接 下 来 会 跟踪 90 
天 ， 计 算 方法 和 原理 是 一 样 的 。 从 这 个 例子 也 可 以 看 出 ， 留 存 用 户 是 可 以 重复 的 ， 就 是 说 1 月 2 号 登录 的 700 人 中 ， 可 能 在 1 月 3 号 也 登录 了 ， 这 个 在 1 月 3 号 中 不 会 重复 处 理 。 某 个 渠道 在 2016 年 1 月 每 天 新 增 
注册 用 户 留存 监控 界面 如 图 10-9 所 示 。 


活跃 用 户 数 活跃 用 户 数 活跃 用 户 数 
2016-01-01 71,871 71,871 21,430 11,028 
2016-01-02 63,284 63,284 18,236 5,849 
2016-01-03 52,098 52,098 10,314 6,688 
2016-01-04 21,375 21,375 6,430 3,730 
2016-01-05 21,106 21,106 6,678 3,955 
2016-01-06 24,752 24,752 8,040 4,893 
2016-01-07 23,686 23,686 7,863 4,926 
2016-01-08 34,013 34,013 12,207 6,362 


2016-01-09 64,470 64,470 19,818 7,229 


2016-01-10 55,004 55,004 11,938 7,833 


2016-01-11 25,934 25,934 8,196 4,777 


图 10-9” 某 渠道 留存 明细 监控 


渠道 用 户 的 第 N 日 留存 率 指标 正常 情况 下 并 无 明显 的 趋势 ， 既 不 是 持续 上 涨 ， 也 不 是 持续 下 降 ， 同 时 不 会 经 常 出 现 大 幅 波动 ， 理 论 上 应 服从 正 态 分 布 。 所 以 可 以 对 某 个 渠道 一 段 时 间 内 的 第 N 日 留存 率 
(如 + 1 日 留存 率 ) 进行 正 态 性 检验 ， 查 看 是 否 存 在 明显 趋势 。 


以 渠道 A 和 渠道 H 在 2016 年 1 月 每 日 新 增 用 户 在 注册 后 的 第 七 天 留存 率 (7 日 留存 率 ) 的 数据 (7 日 留存 率 明细 .csv) 为 例 ， 检 验 两 个 渠道 的 正 态 性 。R 语 言 实现 代码 如 下 。 


> # 导入 7 日 留存 率 明细 数据 


> retention <- treadq.csv("7 日 留存 率 明 细 .csvyheaqder = 了 ) 

> head (zetention) 日 期 渠道 名 称 第 7 日 留存 率 

1 2016/1/]1 渠道 有 .080 

2 2016/1/] 渠道 本 0.037 

3 2016/1/2 渠道 A 0.107 

4 2016/1/2 渠道 HH 0.059 

5 2016/1/3 渠道 A 0.116 

6 2016/1/3 渠道 本 0.052 

> # 对 渠道 A 做 7 日 留存 率 的 正 态 性 检验 

> shapiro.test (retention [retentionS$ 渠 道 名 称 ==" 渠 道 R"" 第 7 日 留存 率 "] ) 


Shapiro-Wilk normality test 

data: retention[retention$ 渠 道 名 称 == "渠道 A"，" 第 7 日 留存 率 "] 

W = 0.8418, p-value = 0.0003402 

> # 对 渠道 H 做 7 日 留存 率 的 正 态 性 检验 

> Shapiro.test (retention [retentions$ 渠 道 名 称 ==" 渠 道 H"" 第 7 日 留存 率 "] ) 
Shapiro-Wilk normality test 

data: retention[retention$ 汇 道 名 称 == "渠道 H"，" 第 7 日 留存 率 "] 

W = 0.9722, p-value = 0.5812 


渠道 A 的 Shapiro-Wilk 正 态 性 检验 的 p 值 为 0.0003402， 说 明 在 0.05 的 显著 性 水 平 下 ， 拒 绝 7 日 留存 率 来 自 正 态 总 体 的 假定 ， 说 明渠 道 A 的 7 日 留存 率 不 服从 正 态 分 布 ; 渠道 H 的 Shapiro-Wilk 正 态 性 检验 
的 p 值 为 0.5812， 说 明 在 0.05 的 显著 性 水 平 下 ， 不 能 拒绝 7 日 留存 率 来 自 正 态 总 体 的 假定 ， 说 明渠 道 H 的 7 日 留存 率 服 从 正 态 分 布 。 


也 可 以 利用 QQ 图 对 数据 正 态 性 进行 检验 。 执 行 以 下 代码 得 到 的 结果 如 图 10-10 所 示 。 


# 绘制 QQ 图 

par (mfrow=c (1,2)) 

# 绘制 渠道 A 的 QQ 图 

qqnorm (retention [retentionS$ 渠 道 名 称 ==" 渠 道 R" "第 7 日 留存 率 "]， 
Pch= 71， 
main="Channel A Normal Q-Q plot") 

qqline (retention [retentionS$ 渠 道 名 称 ==" 渠 道 R"v "第 7 日 留存 率 "] ， 
Col="red", lty=2) 

# 绘制 渠道 H 的 QQ 图 

qqnorm (retention [retentionS$ 渠 道 名 称 ==" 渠 道 H"v "第 7 日 留存 率 "] ， 
poh=7, 
main="Channel H Normal Q-Q plot") 

qqline (retention [retentionS$ 渠 道 名 称 ==" 渠 道 H"v" 第 7 日 留存 率 "]， 
col="red", lty=2) 

par (mfrow=c (1,1)) 
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图 10-10 “渠道 A& 渠 道 可 的 7 日 留存 率 QQ 图 
由 图 10-10 可 知 ， 渠 道 A 的 7 日 留存 率 ( 左 图 ) 不 服从 正 态 分 布 ， 渠 道 H 的 7 日 留存 率 ( 右 图 ) 服从 正 态 分 布 。 


接 下 来 利用 P 控 制图 对 渠道 H 的 新 增 用 户 在 第 7 日 的 留存 用 户 进行 质量 监控 。 数 据 (新 注册 用 户 第 7 日 留存 用 户 统计 .csv) 包括 5 个 变量 : date、channel name、newuser、actionuser、 
retention_rate， 如 表 10-4 所 示 。 


表 10-4 变量 描述 
变量 名 变量 类 型 变量 描述 


date 统计 日 期 


渤 
峙 


channel name 于 型 渠道 名 称 
actionuser 数值 型 当天 注册 用 户 在 第 7 日 的 活跃 用 户 数 


兴 
应 
星 


retention rate 7 日 留存 率 ， 等 于 actionuser 除 以 newuser 


将 数据 读 入 R 中 ， 并 利用 qcc 包 中 的 qcc 逊 数 绘 制 7 日 留存 率 的 P 质 量 图 。 执 行 以 下 代码 得 到 的 结果 如 图 10-11 所 示 。 


> # 绘制 P 质 量 监控 图 

> # 导入 渠道 H 新 增 用 户 在 第 7 日 的 留存 统计 数据 

> residentuser <- read.csv ("渠道 H 新 增 第 7 日 留存 用 户 统 计 .csv",header=T) 
> # 绘制 渠道 R 的 7 日 留存 率 质 量 监控 图 

> library (gqcc) 

Package '‘'gqcc', version 2.6 

Type 'citation("gqcc")' for citing this R package in publications. 


> residentuser$date <- as.Date (residentuser$date) 
> _ attach (residentuser) 

> sol <- gcc(actionuser,newuser,1labels=date, 

十 type="p",nsigmas = 


r 
title=" 渠 道 H 新 增 第 7 日 留存 率 质量 监控 图 "， 
+ xlab="date", ylab="7 日 留存 率 ") 


> detach (residentuser) 


渠道 H 新 增 第 7 日 留存 率 质量 监控 图 
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图 10-11 渠道 H 的 7 日 留存 率 质 量 监控 图 


由 图 10-11 可 知 ， 渠 道 H 在 一 月 份 的 新 增 7 日 留存 用 户 中 ， 一 共有 5 天 存在 异常 情况 (红色 点 ) ， 其 中 在 1 日 、28 日 和 30 日 的 新 增 用 户 在 第 7 日 的 留存 率 低 于 3 倍 标准 差 的 下 限 (LCL) ， 说 明 这 些 天 可 能 存 
在 刷 量 情况 ， 导 致 用 户 质量 差 于 平时 ， 需 引起 运营 关注 。 


10.3 ”渠道 用 尸 质量 评级 


渠道 数据 监控 体系 是 单独 查看 各 指标 ， 这 样 就 割裂 了 各 指标 间 的 联系 。 很 多 指标 其 实 是 相互 影响 的 ， 具 有 很 强 的 相关 性 ,我们 希望 能 找到 综合 考虑 各 指标 的 方法 ， 通 过 统一 标准 对 不 同 渠 道 的 用 户 质 量 
进行 打分 ， 从 而 能 根据 得 分 对 渠道 用 户 质量 进行 评级 。 


10.3.1 ”渠道 用 户 质量 评级 的 背景 和 目的 


渠道 数据 监控 体系 主要 是 单独 查看 各 渠道 的 关键 指标 ， 不 能 很 好 地 体现 渠道 的 整体 质量 ， 也 不 容易 进行 不 同 游戏 在 某 一 渠道 的 横向 对 比 。 因 此 ， 需 要 利用 渠道 运营 数据 中 的 关键 指标 ， 构 建 通用 的 渠道 
用 户 质 量 评价 体系 ， 对 渠道 质量 进行 综合 打分 评级 。 


构建 渠道 用 户 质量 指标 的 目的 是 利用 业务 模型 的 算法 在 短期 内 综合 判断 渠道 的 用 户 质量 ， 该 指标 需要 同时 满足 一 定 的 效 度 和 信 度 要 求 ， 如 图 10-12 所 示 。 


图 10-12 ”渠道 用 户 质量 打分 原则 
指标 需要 一 定 的 效 度 : 能 够 准确 代表 渠道 品质 ， 对 于 日 后 的 用 户 量 级 和 收入 量 级 具有 一 定 的 预测 性 。 
指标 需要 一 定 的 信 度 : 在 不 同 的 阶段 和 时 间 内 保持 稳定 ， 需 要 排除 干扰 因素 ， 如 过 客 型 用 户 对 指标 表现 的 影响 


. 指标 需要 一 定 的 普 适 性 : 对 不 同 游戏 如 ARPG、 跑 酪 躲避 类 、 消 除 类 、 休 闲 益 智 类 等 产品 采用 同一 算法 ， 指 标 表 现 需要 排除 差异 。 


10.3.2 “渠道 用 户 质量 打分 模型 

根据 以 上 原则 ， 以 自然 周 为 研究 周期 ， 选 取 周 收入 、 周 活跃 、 周 ARPPU、 周 付费 渗透 率 、 第 7 日 留存 率 作 为 五 大 基础 指标 ， 通 过 计算 各 个 指标 的 信 度 和 效 度 ， 对 渠道 用 户 的 基础 指标 进行 打分 ， 打 分 规 
则 如 下 。 

1) 选取 某 一 周作 为 起 始 周 ， 假 设 全 部 渠道 都 处 于 同一 起 跑 线 ， 默 认 都 是 10 分 。 

2) 波动 性 得 分 = 5x (本 周 实际 值 - 上 周 实际 值 ) /最 近 四 周 的 最 大 值 

3) 量 级 得 分 = 5x 渠 道 本 周 值 /所 有 渠道 本 周 总 值 (只 有 周 收入 、 周 活跃 有 量 级 指标 ， 其 他 三 个 指标 不 用 考虑 量 级 得 分 ) 

4) 各 指标 得 分 = 上 周 得 分 + 波动 性 得 分 + 量 级 得 分 


本 周 实际 值 一 上 周 实际 值 . 


每 个 渠道 起 始 周 均 以 10 分 开始 计算 ; 以 波动 性 得 分 来 衡量 指标 的 效 度 ， 考 虑 到 游戏 在 不 同 阶段 的 用 户 质量 会 有 所 不 同 ， 所 以 选用 最 近 四 周 的 最 大 值 作 为 分 母 ， 通 过 "* smwwxssm 得 到 波动 性 得 分 ; 对 于 
周 收入 和 周 活跃 指标 ， 增 加 量 级 得 分 用 来 衡量 指标 的 效 度 ， 以 渠道 自身 值 除 以 所 有 渠道 总 和 得 到 量 级 得 分 ; 最 后 基础 指标 本 周 得 分 = 上 周 得 分 + 本 周波 动 性 得 分 + 量 级 得 分 。 


假如 以 2016 年 第 1 周 为 研究 的 起 始 周 ， 初 始 得 分 是 10。 以 渠道 A 的 周 收入 为 例 ， 计 算 第 2 周 的 收入 指标 得 分 。 第 1 周 渠道 A 的 收入 是 200529， 第 2 周 渠 道 A 的 收入 是 194369， 第 1 周 的 总 收入 是 1236529， 
由 此 得 到 第 2 周 的 波动 变化 得 分 是 -0.03 ( (194369-200529) /200529) ， 量 级 得 分 是 0.16， 所 以 渠道 A 第 2 周 的 收入 指标 得 分 = 10-0.03 + 0.16 = 10.13。 


然后 将 各 指标 得 分 乘 以 相应 的 指标 权重 ， 得 到 渠道 用 户 的 得 分 。 各 指标 权重 如 表 10-5 所 示 ， 各 业务 部 门 也 可 以 根据 自己 的 商业 模式 调整 权重 值 。 


表 10-5 各 指标 权重 


指 标 权 重 权 重 


渠道 得 分 = 收入 得 分 x 收入 权重 + 活跃 得 分 x 活跃 权重 + 付费 渗透 率 得 分 x 渗 透 率 权重 + ARPPU 得 分 xARPPU 权 重 + 7 日 留存 率 得 分 x 7 日 留存 这 权重 


[ee 


最 后 ， 利 用 计算 得 到 的 渠道 每 周 得 分 ， 绘 制 出 每 个 渠道 的 生存 曲线 ， 以 便 查 看 渠道 的 生存 值 变化 情况 ， 并 根据 渠道 最 新 得 分 进行 划分 ， 得 分 在 12 分 以 上 的 渠道 为 表现 优异 区 ，10~12 分 的 产品 为 表现 中 
上 区 ，6~10 分 为 表现 中 等 区 ，4~ 6 为 表现 中 下 区 ，0~4 分 为 危险 区 ， 小 于 0 分 为 死亡 区 。 
10.3.3 “分 析 案 例 : 渠道 用 户 质量 打分 

图 10-13 是 各 款 游戏 在 不 同 渠 道 的 周 数据 概况 ， 包 含 周 收入 、 周 活跃 用 户 数 、 第 7 日 留存 率 、 周 付费 率 和 周 ARPPU 这 5 个 需要 用 来 构建 打分 指标 的 原始 指标 。 


先 自 定义 函数 channel_score 来 计算 各 指标 得 分 。 因 为 只 有 周 收入 和 周 活跃 需要 同时 考虑 效 度 和 信和 度 ， 周 付费 率 、 周 ARPPU 和 新 增 7 日 留存 率 这 三 个 指标 只 需要 考虑 信和 度 ， 所 以 在 channel_score 函 数 中 
增加 amount 参 数 ， 利 用 amount 人 参数 指定 是 否 考虑 效 度 ， 为 TRUE 时 ， 说 明 指 标 得 分 需要 考虑 不 同 渠道 的 量 级 因素 ， 为 FALSE 时 ， 仅 考虑 指标 的 波动 性 。channel_score 卫 数 的 脚本 如 下 。 


Search- 


周 活跃 用 户 数 第 7 日 留存 率 周 付 费 率 


Showng 1 to 10 of 830 eniries 


图 10-13 ” 周 渠 道 概况 数据 


# 自 定义 channel _ score ( ) 实现 指标 打分 模型 
# 渠道 得 分 函数 
channel Score <- function (data,amount=T) { 
# 进行 指标 的 波动 性 打分 
library (reshape) 
data <- cast (data, 渠道 名 称 ~ 自 然 周 ) 
# 利用 apP1LY 函 数 分 渠道 求 出 当前 周 与 上 周 的 差 值 
x <- t(apply (datal,-1],1,diff)) 
# 利用 as .data.frame 吕 将 x 转换 成 数据 框 形式 
x <- as.data.frame (x, row.names = as.character (datal[,1])) 
# 利用 colnames 函 数 对 X 列 名 重新 赋值 
colnames (x) <- colnames (datal[l3:ncol (data)]) 
# 找 出 最 近 四 周 的 最 大 值 
# 自 定义 函数 mystat 求 最 近 四 周 的 最 大 值 
mystat <- function (X) { 
m <- rep(0, (ncol (data) -1)) 
for(i in 1: (ncol (data)—-1))t{ 
if(i <=3)f{ 
m[i] <- max (x[1:1i]) 
} else { 
m[i] <- max (x[ (i-4):1i]) 
} 
} 


return (m) 


} 
## 利用 appP1y 函 按 分 渠道 求 最 近 四 周 的 最 大 值 

y <- t(apply(data[l,-1],1,mystat)) 

# 利用 as.qata.frame 函 数 将 y 转 换 成 数据 框 形式 
y 

# 


<— as.data.frame (y, row.names = as.character (datal,11])) 
利用 colnames 函 数 对 y 列 名 重新 赋值 
colnames (y) <- colnames (qata[2:ncol (data)|]) 
# 计算 波动 变化 得 分 
reliability Score <- 5*round (x/yl[,-1],3) 
reliability score 
if(amount) { 
# 进行 指标 的 量 级 打分 
# 利用 colSums 函 数 按 列 求 和 
x <- colSums (datal[,-1]) 
x <- as.data.frame (matrix (rep (x, nrow (data)),nrow = nrow (data) ,byrow = T)) 


amount Score <- 5xround (datal[,-1]/x,3) 

rownames (amount _ Score) <- rownames (reliability Score) 
amount Score 

# 计算 指标 得 分 

# 利用 cumsum 了 水 数 对 波动 变化 值 进行 取 积 求 和 


rs cumsum <- apply (reliability score,l1 


; CUMmSUmM) 


rs cumsum <- as.qata.frame (t (rs cumsum)) 

score <- 10+rs cumsumtamount score[,-1] # 起 始 分 + 波动 变化 得 分 + 量 级 得 分 
score[,colnames (data) [2]] <- 10 

Score <- score[,c(ncol(score),1l:ncol(score)-1)] 上 改变 列 的 顺序 


else { 
# 利用 cumsum 吕 数 对 波动 变化 值 进行 素 积 求 和 

rs cumsum <- apply (reliability score,1,cumsum) 
rs cumsum <- as.qata.frame (t (rs cumsum)) 
Score <- 10+rs _cumsum # 起 始 分 + 波动 变化 得 分 
score[,colnames (data) [2]] <- 10 

score <- score[,c(ncol (score),1:ncol (score) 
} 

return (score) 


} 


-1)] # 改变 列 的 顺序 


将 数据 导入 R 中 ， 并 将 自然 周 变量 转换 成 有 序 因子 。 实 现代 码 如 下 。 


> 井 导入 周 渠 道 概况 数据 


> load ("rawdata.RData") 

> str(rawdata) 

'data.frame': 830 obs. of 8 variables: 

$ 游戏 名 称 : Factor w/ 7 levels "游戏 A"， "游戏 B", http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/..: 312654731 
$ 渠道 名 称 : Factor w/ 12 levels "渠道 A" "渠道 B"vhttp://www.hzcourse.corm/resource/readqBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/..: 1 11111111 
$ 自然 周 : Ord.factor w/ 27 levels "第 1 周 "<" 第 和 2 周 "<http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompresseq/16401/OEBPSVText/..:111111: 
$ 周 收入 : int 311 814 37040 21592 64420 27211 6847 40 482 9014 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/. 
$ 周 活跃 用 户 数 : int 989 740 85714 66074 46371 20316 23407 644 870 24516 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Tex 
$ 第 7 日 留存 率 : num 0.114 0.149 0.105 0.059 0.094 0.073 0.056 0.153 0.122 0.063 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0 
$ 周 付 费 率 : num 0.024 0.012 0.017 0.015 0.055 0.041 0.015 0.026 0.014 0.017 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0OFE 
$ 周 ARPPU : num 0.315 1.1 0.432 0.327 1.389 nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/... 

> ## 对 字段 自然 周转 化 成 有 序 因子 交 量 

> levels <- c(paste0 ("第 ",1:length (unique (rawdata$ 自 然 周 ) )," 周 ")) 

> rawdata$ 自 然 周 <- factor (rawdata$ 自 然 周 ， 

十 levels = levels, 

十 ordered = TT) 

> str(rawdata) 

'data.frame': 830 obs. of 8 variables: 

$ 游戏 名 称 : Factor w/ 7 levels "游戏 A"， "游戏 B", http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/..: 312654731 
$ 渠道 名 称 : Factor WwW/ 12 levels "渠道 A"， "渠道 B"rhttp://www.hzcourse.com/resource/readqBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/..: 二 
$ 自然 周 : Ord.factor w/ 10 levels "第 1 周 "<" 第 名 2 周 "<http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/..: 1 11111. 
$ 周 收入 : int 311 814 37040 21592 64420 27211 6847 40 482 9014 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/. 
$ 周 活跃 用 户 数 : int 989 740 85714 66074 46371 20316 23407 644 870 24516 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text. 
$ 第 7 日 留 在 率 : num 0.114 0.149 0.105 0.059 0.094 0.073 0.056 0.153 0.122 0.063 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0E 
$ 周 付 费 率 : num 0.024 0.012 0.017 0.015 0.055 0.041 0.015 0.026 0.014 0.017 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ， ee” 
$ 周 ARPPU : num 0.315 1.1 0.432 0.327 1.389 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16401/0EBPS/Text/.. 
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取 游 戏 A 为 研究 对 象 ， 以 第 1 周 为 起 始 周 ， 利 用 自 定 义 的 channel_score 函 数 计算 出 各 指标 得 


叶 分 。 实 现代 码 如 下 。 


六 


> # 对 游戏 A 的 渠道 得 
> # 计算 周 收入 得 分 
> channel revenue <- channel score (rawdata[rawdata$ 游 戏 名 称 ==" 游 戏 A"， 

提 c ("渠道 名 称 ", "自然 周 "," 周 收入 ") ] ) 

Using 周 收入 as value column. Use the value argument to cast to override this choice 

> # 计算 周 活跃 用户 得 分 

> channel active <- channel Score (rawdata[rawdata$ 游 戏 名 称 ==" 游 戏 A"， 

和 c (" 渠 道 名 称 "， "自然 周 "," 周 活跃 用 户 元 ") ]) 

Using 周 活 跌 用 户 数 as value colum. Use the value argument to cast to override this choice 
> ## 计算 第 7 日 留存 率 得 分 

> hin et <- channel score (rawdata[rawdata$ 游 戏 名 称 ==" 游 戏 A"，, 

+ c (" 渠 道 名 称 "r "自然 周 " "第 7 日 留存 率 ") ] 

Using 第 7 日 留存 率 as value columm. Use the value argument to cast to overri 2 this choice 
> # 计算 周 付费 率 得 分 

> channel payrate <- channel score (rawdata[rawdata$ 游 戏 名 称 ==" 游 戏 A"， 

+ c ("渠道 名 称 "， "自然 周 "," 周 付费 率 "] ]) 

Using 周 付 费 率 as value co] Use the value argument to cast to override this choice 
>>### 计算 ARPU 得 时 分 

> channel arppu <- channe] 
十 

Using 周 ARPPU as Value column. 


分 进行 计算 


[umn. 


| score (rawdata[rawdata$ 游 戏 名 称 ==" 游 戏 A"， 
C ("渠道 名 称 "， TY 自 然 周 TY , " 周 ARPPU") ] ) 
Use the value argument to cast Py override this choice 


将 各 指标 得 分 乘 以 相应 权重 ， 得 到 游戏 A 在 各 渠道 从 第 1 周到 第 10 周 的 综合 得 分 。 实 现代 码 如 下 。 
> # 计算 综合 得 分 
> channel total <- round(0.3*channel revenue+0.2*channel activet+0.2*channel PayLate+ 
十 0.15*channel arpput+0.15*channel newretation,2) 
> # 查看 综合 得 分 结果 
> channe] total 

第 1 周 第 2 周 第 3 周 第 4 周 第 5 周 第 6 周 第 7 周 第 8 周 第 9 周 第 10 周 渠道 RA 10 9.27 11.18 9.25 9.20 9.53 9.89 10.08 9.83 10.06 渠 道 B 10 11.3/ 10.19 9.30 11.00 11577 11 
根据 综合 得 分 ， 绘 制 游戏 A 在 各 渠道 的 生存 曲线 ， 运 行 结果 如 图 10-14 所 示 。 

游戏 R 在 各 渠道 的 生存 曲线 


| total1$ 渠 道 名 称 <- rownames (channel total 
library (reshape) 

md <- melt (channel total, idq=" 渠 道 名 称 ") 
mdSweek <- i n 


L) # 增加 渠道 名 称 变量 
# 对 数据 进行 重 塑 
felse (nchar (as.character (md$variable) )==4, 

substr (md$variable, 2,3), substr (md$variable,2,2)) # 增 加 周 数 变量 
md$Sweek <- as.numeric (md$week) 
library (lattice) 
xyplot (value~week | 渠道 名 称 , data=md, type=c ("1","g")， 

lwd=2, layout=c (6,2) ) # 绘 制 面板 曲线 图 


+ VVV+VVvVvvVvyV 


week 


图 10-14 渠道 用 户 生存 曲线 


由 图 10-14 可 知 ， 渠 道 G6 从 第 2 周 开 始 ， 用 户 得 分 一 直 呈 现 增 长 趋势 ， 在 第 10 周 得 分 达到 13 分 ， 属 于 表现 优异 的 渠道 ， 渠道 和 渠道 K 用 户 得 分 整体 下 滑 明 显 ， 近 期 表现 中 等 ， 需 要 持续 关注 或 优化 .。 


10.4 ”小结 


本 章 首先 介绍 了 渠道 分 析 的 重要 性 ， 并 且 根 据 业 务 需求 搭建 渠道 数据 监控 体系 ， 然 后 介绍 了 如 何 利用 收集 到 的 指标 数据 ， 根 据 合 理 的 算法 计算 指标 得 分 ， 从 数量 、 质 量 和 收入 三 大 角度 综合 考虑 渠道 用 
户 ， 对 不 同 渠道 用 户 进行 评级 。 


第 11 草 收入 分 析 


基本 上 所 有 的 游戏 都 需要 锰 利 ， 目 前 移动 游戏 创收 有 三 种 形态 : 付费 下 载 、 应 用 内 广告 、 应 用 内 付费 。 付 费 下 载 指 的 是 玩家 需要 付费 后 才能 下 载 该 游戏 。 应 用 内 广告 是 指 一 些 大 DAU 游 戏 可 以 在 游戏 内 
嵌入 广告 。 例 如 ， 在 玩家 死亡 后 通过 观看 其 他 游戏 视频 广告 复活 ， 该 游戏 通过 此 手段 赚 取 广告 费 。 应 用 内 付费 是 指 玩家 在 游戏 过 程 中 为 金币 、 钻 石 、 道 具 、 骑 乘 等 用 人 民 币 进行 购买 的 行为 。 本 章 重 点 对 第 
三 种 情况 定义 指标 ， 如 游戏 收入 、 付 费用 户 数 、 付 费 转 换 率 等 。 我 们 经 常 需要 对 付费 用 户 进行 划分 ， 识 别 不 同 价值 的 用 户 。 识 别 用 户 价值 应 用 最 广泛 的 模型 是 通过 三 个 指标 : 最 近 消费 时 间 间 隔 

(Recency) 、 消 费 频率 (Frequency) 、 消 费 金 额 (Monetary) 进行 划分 ， 识 别 出 高 价值 的 用 户 ， 简 称 RFM 模 型 。 


11.1 安 观 收入 分 析 


宏观 收入 分 析 是 日 常 游戏 数据 分 析 工 作 中 最 为 基础 ， 也 是 最 重要 的 一 环 ， 体 现在 各 种 日 报 、 周 报 以 及 月 报 中 ， 在 一 些 专项 的 分 析 报 告 中 也 会 有 所 体现 。 


如 果 按 照 每 日 的 计算 ， 游 戏 收 入 有 以 下 三 种 方式 。 


Reveune=DAU*ARPU=DAU*P%*ARPPU=APA*ARPPU 


其 中 ，Revenue 是 游戏 收入 ， 休 闲 游戏 用 户 大 多 通过 短 代 支 付 ， 所 以 又 分 为 应 收 和 实 收 ; DAU 是 日 活跃 用 户 数 ; ARPU 是 平均 每 活跃 用 户 收入 ; P% 是 付费 转换 率 ; APA 是 日 付费 用 户 数 ; ARPPU 是 平 
均 每 付费 用 户 收入 。 以 下 是 各 指标 的 定义 及 计算 方式 。 


. 应 收 : 统计 区 间 内 游戏 中 所 有 付费 用 户 付费 金额 的 总 和 。 ( 注 : 此 处 “付费 ” 仅 指 人 民 币 付费 ， 不 包括 代 币 支付 。) 

* 实 收 : 网 游 实 收 即 为 应 收 ， 休 闲 游 戏 实 收 为 运营 商 收入 。 

. ARPPU: 平均 每 付费 用 户 收入 ， 是 指 统 计 区 间 内 付费 用 户 对 游戏 产生 的 平均 收入 。 计 算 公式 为 : 收入 /付费 用 户 数 。 

. ARPU: 平均 每 活跃 用 户 收 入 ， 是 指 统计 区 间 内 活跃 用 户 对 游戏 产生 的 平均 收入 。 计 算 公 式 为 : 收入 /活跃 用 户 数 。 
现在 有 某 款 游戏 在 8 月 1 日 到 8 月 31 日 的 应 收 、 实 收 、ARPU、ARPPU 的 每 日 数据 。 执 行 以 下 代码 得 到 的 结果 如 图 11-1 所 示 。 


> # 收入 指标 日 总 况 


> revenue <- read.csv ("付费 总 况 .csv") 

> head (revenue) 日 期 应 收 实 收 AREU. 应 收 . ARPPEU. 应 收 . ARPU. 实 收 . ARPPU. 实 收 . 
1 08/01 5137.5 2936.5 0.83 42.46 0.48 24.27 

2 08/02 3196.0 1871.8 0 53 25..17 0.31 14.74 

3 08/03 3068.3 1320.9 0.50 26.45 Ois22 11.39 

4 08/04 3111.9 1707.4 0:52 25.10 0.29 13.77 

5 08/05 4334.4 2573.4 0.73 37.05 0.44 21.99 

6 08/06 2330.9 190.2 0.40 21.78 0::03 1.78 

> library (reshape) 


> md <- melt (revenue,id=' 日 期 ') 

> head(md) 日 期 variable value 

1 08/01 应 收 5137.5 

2 08/02 应 收 3196.0 

3 08/03 应 收 3068 .3 

4 08/04 应 收 3111.9 

5 08/05 应 收 4334 .4 

6 08/06 应 收 2330.9 

> library (recharts) 

> echartr (md 日 期 ,valueyvariablertype=c (rep('vbar',2),rep('line',4))) %>% 
+ setYlAxis (series=3:6) %>% # 设置 Y 轴 副 坐 标 轴 
十 SetSymbols ('emptycircle') %>% 

十 setToolbox (show=FALSE) 


由 图 11-1 可 知 ，8 月 6 日 、8 月 13 日 的 实 收 数据 是 异常 的 ， 存 在 大 量 用 户 恶 意 刷 道具 的 行为 或 者 是 运营 商 的 收入 数据 没 能 传输 过 来 等 原因 。 需 引起 相关 人 员 重 视 ， 优 化 反 刷 分 机 制 。 


如 果 能 收集 到 玩家 的 手机 终端 信息 ， 了 解 玩 家 使 用 手机 的 品牌 、 手 机 机 型 、 分 辨 率 、 操 作 系统 、 运 营 商 等 信息 ， 在 游戏 的 版 本 和 迭代 时 ， 可 以 根据 用 户 的 终端 情况 进行 相应 的 优化 ， 提 高 玩家 玩 游戏 的 流 
畅 度 和 付费 体验 。 图 11-2 是 该 款 游戏 各 种 终端 品牌 的 付费 人 数 统计 。 


# 终端 品牌 的 付费 人 数 统计 
brand <- qata.frame ( 
' 品 牌 '= c ("OPPO", "HUANEI" vivo" "Xiaomi", "samsung", "HONOR", 
"Meizu", "GIONEE", "LeEco", "Coolpad"), 
'! 付 费 人 数 '=c(711，,，519,，486, 477, 388, 260,， 156, 
S71y S53 46),) 
echartr (brand 品牌 ,付费 人 数 ,type = "vbar") %>% 
setToolbox (show=FALSE) 
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图 11-1 收入 指标 日 总 况 


付费 人 数 
800 


品牌 


OPPO HUAWEI VIVO Xiaomi samsung HONOR Meizu GIONEE Lekco Coolpad 


图 11-2 设备 付费 人 数 统计 


由 图 11-2 可 知 ， 前 四 品牌 分 别 是 : OPPO、HUAWEI、VIVO、Xiaomi。 由 于 OPPO 手 机 的 用 户 消费 能 力 不 如 三 星 和 华为 荣光 ， 所 以 我 们 在 商业 化 设计 时 可 考虑 推出 一 些 性 价 比 高 的 优惠 套餐 ， 增 加 这 
些 终端 用 户 的 消费 意愿 ， 提 高 付费 转化 率 。 


付费 转化 率 也 称 为 付费 渗透 率 ， 是 非常 重要 的 游戏 收益 考核 指标 。 该 指标 实际 上 在 新 增 用 户 获取 方面 也 扮演 着 非常 重要 的 作用 。 从 狭义 上 讲 ， 所 谓 付费 转化 率 就 是 在 一 款 游戏 中 ， 付 费 玩家 占 整个 活跃 
玩家 的 比例 ， 其 计算 公式 是 付费 玩家 数 /活跃 玩家 数 。 执 行 以 下 代码 得 到 的 8 月 日 付费 转化 率 曲 线 如 图 13-3 所 示 。 


8 月 日 付费 转化 率 走势 图 
一 一 日 付费 率 (上 百分比) 
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图 11-3 日 付费 转化 率 曲 线 图 


由 图 11-3 可 知 ， 该 款 游戏 的 日 付费 转化 率 是 不 理想 的 ， 大 约 在 2% 左 右 。 有 时 候 我 们 也 会 关注 玩家 首次 付费 周期 和 金额 分 布 、 首 次 支付 渠道 等 信息 。 首 次 付费 的 周期 可 以 按照 累计 活跃 天 数 和 已 注册 天 数 
来 分 别 统计 。 计 算 方 式 如 下 。 


' 首次 付费 -累计 活跃 天 数 : 从 注册 到 第 一 次 付费 间 所 累计 活跃 的 时 间 (单位 : 天 ) 。 
` 首次 付费 -已 注册 天 数 : 从 注册 到 第 一 次 付费 所 经 历 的 时 间 (单位 : 天 ) 。 


例如 ，A 用 户 2016-01-01 注 册 某 游戏 ， 其 中 2016-01-04、2016-01-06 有 登录 游戏 ， 并 且 在 2016-01-06 购 买 物品 P1， 则 A 用 户 首次 付费 -累计 活跃 天 数 = 3， 首 次 付费 -已 注册 天 数 = 5。 


11.2 ”游戏 经 济 与 用 户 关 系 分 析 


游戏 内 的 游戏 币 和 道具 发 放 不 是 越 多 越 好 ， 这 样 会 因 游戏 币 不 能 及 时 消耗 而 导致 存量 越 积 越 多 。 如 何 判 断 游 戏 内 的 经 济 系统 平衡 性 ， 从 而 对 游戏 币 的 发 放 和 消耗 策略 提供 数据 支撑 是 蝇 待 解决 的 问题 。 


本 节 以 棋牌 游戏 为 研究 目标 ， 希 望 寻找 出 货币 量 指标 与 用 户 类 指标 的 关系 ， 尝 试 提供 引导 用 户 行为 来 达到 游戏 内 经 济 系统 生态 平衡 的 目的 。 


11.2.1 背景 及 数据 


某 款 棋牌 游戏 经 济 系统 包含 了 游戏 币 发 放 总 量 、 纯 消耗 、 玩 家 身上 携带 与 保险 箱 结余 等 货币 量 信息 。 但 是 这 些 数据 都 没 能 很 好 地 利用 起 来 ， 运 莒 人 员 不 清楚 游戏 整个 经 济 系统 现状 ， 无 法 判断 目前 处 于 
游戏 币 发 放 过 少 还 是 过 剩 状 态 。 本 次 研究 希望 通过 货币 类 指标 与 用 户 类 指标 相 结 合 ， 利 用 用 户 行为 数据 研究 关键 货币 量 指标 ， 找 到 立 值 判断 当前 外 网 货币 库存 量 的 健康 状况 。 


收集 了 2015 年 2 月 1 日 至 2015 年 11 月 30 日 期 间 每 日 的 货币 类 指标 、 用 户 类 指标 和 运营 类 指标 。 经 研究 发 现 ， 最 近 30 天 内 没有 登录 过 的 用 户 再 回流 的 可 能 性 很 低 ， 将 这 批 用 户 定义 为 沉睡 用 户 ， 在 最 近 30 
天 内 有 过 登录 行为 的 用 户 定 义 为 活跃 用 户 。 具 体 指 标 如 表 11-1 所 示 。 


表 11-1 数据 指标 定义 

指标 类 型 指标 名 称 指标 类 型 指标 名 称 
沉睡 保险 箱 结余 日 活跃 用 户 

月 活跃 用 户 数 

日 活跃 /月 活跃 
登录 用 户 数 
日 新 增 用 户 


纯 消耗 累 增 用 户 
用 户 类 指标 
在 线 均值 付费 次 数 
运营 类 指标 
在 玩 均值 玩 牌 人 数 


在 玩 峰 信 破产 用 户 数 


色 币 量 指标 


根据 这 些 数据 实现 以 下 目标 。 
" 利用 相关 性 分 析 研 究 沉睡 货币 量 / 活 跃 货币 量 与 用 户 关键 维 度 的 关系 。 
利用 主 成 分 分 析 对 高 维 数 据 进 行 降 维 处 理 ， 利 用 聚 类 分 析 模 型 对 各 指标 进行 分 群 。 


" 利用 DAU/MAU 王 0.2 临 界 点 作为 风险 值 依 据 ， 研 究 衡量 外 网 货币 库存 量 的 健康 指标 。 


11.2.2 ”数据 探索 分 析 


1. 相 关 性 分 析 
利用 相关 性 分 析 研 究 货币 量 数据 与 用 户 属性 间 的 关系 ， 发 现 对 沉 泥 货币 量 的 变化 影响 大 (通过 相关 系数 体现 ) 的 用 户 行为 指标 ， 通 过 业务 运营 方式 调整 对 应 的 用 户 行为 指标 ， 达 到 ) 减 少 沉淀 货币 量 的 效 
果 ; 发 现 对 活跃 贷 币 量 的 变化 影响 大 的 用 户 行为 指标 ， 通 过 运营 手段 提高 活跃 货币 量 。 


首先 研究 货币 量 与 活跃 用户 、 新 增 用 户 间 的 关系 ， 运 行 以 下 代码 计算 其 相关 系数 ， 并 通过 corrplot 函 数 绘制 相关 系数 图 ， 结 果 如 图 11-4 所 示 。 


> W <- read.csv ("经 济 系统 数 据 .csv", 了) # 导入 数据 

> WwW <- wl,-1] # 删除 日 期 

> wl <- wl,c(1:10,16:17)] # 选择 货币 量 类 与 活跃 用 户 类 、 新 增 用 户 类 等 字段 的 数据 

> (rl <- round (cor (wl1[,1:6],w1[,7:12]),2)) # 计算 相关 系数 日 活跃 用 户 月 活跃 用 户 数 日 活跃 .月 活跃 登录 用 户 数 日 新 增 用 户 累 增 用 户 沉睡 保险 箱 结余 -0.86 -0.90 -0.52 0 
> library (corrplot) 


> corrplot (rl,method = "ellipse") # 绘制 相关 系数 图 
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图 11-4 货币 类 与 活路 类 指标 相关 系数 图 


由 图 11-4 可 知 ， 沉 泻 货币 量 (沉睡 保险 箱 结余 、 沉 睡 身上 携带 ) 与 活跃 用 户 数 的 相关 系数 小 于 -0.85， 说 明 人 存在 强 负 相 关 性 ， 即 随 着 用 户 活跃 数 的 增加 ， 沉 泥 货 


币 量 呈 明显 下 降 趋 势 ; 


沉淀 货币 量 (沉睡 


保险 箱 结余 、 沉 睡 身上 携带 ) 与 累 增 用 户 “〈 即 总 注册 用 户 量 ) 的 相关 系数 大 于 0.8， 说 明 存 在 强 正 相 关 性 ， 即 随 着 总 注册 用 户 的 增加 ， 沉 淀 货币 量 也 会 明显 增加 ; 活跃 保险 箱 余 额 与 活跃 用 户 的 相关 系数 大 于 


0.8， 说 明 存 在 强 的 正 相关 性 ， 即 活跃 用 户 的 增加 使 活跃 保险 箱 余额 明显 增加 。 


接 下 来 研究 货币 量 与 付费 用 户 间 的 关系 ， 运 行 以 下 代码 计算 其 相关 系数 并 绘制 相关 系数 图 ， 结 果 如 图 11-5 所 示 。 


> w2 <- wl,c(1:6,11:15)] # 选择 货币 量 与 付费 用 户 的 字段 数据 
> (r2 <- round (cor (w2[,1:6],w21,7:11]),2)) # 计算 相关 系数 日 ARPPU 日 充值 总 额 日 付费 用 户 数 首付 用 户 数 付费 次 数 沉睡 保险 箱 结 余 0.26 =0,29 
> corrplot (r2,method = "ellipse") # 绘制 相关 系数 图 
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图 11-5 ”货币 类 与 付费 类 指标 相关 系数 图 


由 图 11-5 可 知 ， 沉 泻 货币 量 (沉睡 保险 箱 结余 、 沉 睡 身上 携带 ) 与 付费 次 数 的 相关 系数 小 于 -0.8， 说 明 存 在 强 负 相关 性 ， 即 随 着 付费 次 数 的 人 数 增多 ,沉淀 货币 量 显著 减少 ; 活路 保险 箱 余额 与 付费 次 
数 的 相关 系数 超过 0.8， 说 明 人 存在 强 正 相关 性 ， 即 随 着 付费 次 数 的 人 数 增多 ， 活 跃 保险 箱 余额 增加 明显 。 


最 后 研究 货币 量 与 用 户 玩 牌 数据 间 的 关系 ， 运 行 以 下 代码 计算 其 相关 系数 并 绘制 相关 系数 图 ， 结 果 如 图 11-6 所 示 。 

> w3 <- wl[,c(1:6,18:26)] # 选择 货币 量 与 用 户 玩 牌 数据 的 字段 数据 

> (r3 <- round (cor (w3[,1:6],w3[,7:11]),2)) # 计算 相关 系数 在 线 均值 在 玩 均值 最 高 在 线 在 玩 峰 值 玩 牌 人 数 沉睡 保险 箱 结 余 -0.89 -0.88 -0.68 -0.86 -0.82 沉 睡 身 上 携带 一 和 
> corrplot (r3,method = "ellipse") # 绘制 相关 系数 图 
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图 11-6 ”货币 类 与 用 户 玩 牌 数据 类 指标 相关 系数 图 


活路 保险箱 余 额 


纯 消 耗 


由 图 11-6 可 知 ， 沉 淀 货币 量 (沉睡 保险 箱 结余 、 沉 睡 身 上 携带 ) 与 玩家 的 玩 牌 数 据 (在 线 均值 、 在 玩 均值 、 在 玩 峰值 、 玩 牌 人 数 ) 呈现 明显 的 负 相关 性 ， 说 明 玩 牌 各 项 数据 提升 能 大 幅 减少 沉 泥 货 
量 ; 活跃 保险 箱 余额 与 玩家 的 玩 牌 数据 呈现 明显 正 相 关 性 的 系数 大 于 0.8， 说 明 玩 牌 各 项 数据 的 提升 能 极 大 提高 活跃 保险 箱 余额。 


相关 性 分 析 结 果 表 明 贷 币 量 指标 与 用 户 类 指标 存在 明显 的 关系 ， 证 明 利 用 用 户 行为 数据 研究 关键 货币 量 指标 ， 找 到 阅 值 判断 当前 外 网 贷 币 库存 量 的 健康 状况 的 思路 是 可 行 
2. 降 维 及 聚 类 分 析 


首先 利用 主 成 分 分 析 进 行 降 维 处 理 。 利 用 scale 函 数 对 数据 做 z-score 处 理 ，princomp 遂 数 建立 主 成 分 分 析 模 型 ， 通 过 summary 函 数 查 看 主 成 分 信息 ， 如 图 11-7 所 示 。 


> w.sc<-scale (w) # 将 数据 标准 化 
> w.pr<-princomp (w.sc) # 建立 主 成 分 分 析 模 型 
> summary (w.pr) # 查看 主 成 分 信 


> summary (Ww.pr) # 提取 主 成 分 信息 
Importance of components: 

Comp.1 Comp .2 Comp.3 Comp .4 Comp.5 Comp.6 Comp.7 Comp.8 
Standard deviation 3.8788764 1.6093337 1.49179429 1.19157538 1.01305446 0.98508873 0.77701315 0.70490478 
Proportion of Variance 0.5805962 0.0999435 0.08587766 0.05479051 0.03960299 0.03744666 0.02329802 0.01917446 
Cumulative Proportion 0.5805962 0.6805397 0.76641740 0.82120792 0.86081090 0.89825756 0.92155558 0.94073005 

Comp.9 Comp.10 Comp.11 Comp . 12 Comp .13 Comp.14 Comp.15 Comp.16 
Standard deviation 0.58530098 0.55535963 0.464224682 0.419628910 0.360658202 0.31092930 0.295496274 0.203862199 
Proportion of Variance 0.01321968 0.01190175 0.008316083 0.006795058 0.005019425 0.00373066 0.003369507 0.001603747 
Cumulative Proportion 0.95394972 0.96585148 0.974167559 0.980962616 0.985982041 0.98971270 0.993082208 0.994685955 

Comp.17 Comp.18 Comp.19 Comp.20 Comp .21 Comp .22 Comp .23 
Standard deviation 0.197541931 0.184266910 0.1461837665 0.1261963135 0.0989769140 0.0804500782 0.0654912091 
Proportion of Variance 0.001505847 0.001310259 0.0008246329 0.0006145478 0.0003780334 0.0002497556 0.0001655116 
Cumulative Proportion 0.996191802 0.997502061 0.9983266934 0.9989412413 0.9993192746 0.9995690303 0.9997345418 

Comp .24 Comp.25 Comp.26 

Standard deviation 0.0602583171 4.900990e-02 2.908777e-02 
Proportion of Variance 0.0001401188 9.268939e-05 3.264999e-05 
Cumulative Proportion 0.9998746606 9.999674e-01 1.000000e+00 


图 11-7 提取 主 成 分 信息 


其 中 Standard deviation 标 准 差 的 平方 为 方差 特征 值 ; Proportion of Variance 是 方差 贡献 率 ; Cumulative Proportion 是 方差 累计 贡献 率 。 由 结果 前 五 个 主 成 分 的 累计 贡献 率 已 经 达到 86% 可 
以 舍弃 其 他 主 成 分 达到 降 维 的 目的 。 


也 可 以 利用 screeplot 函 数 ， 绘 制 主 成 分 的 碎 石 图 ， 值 大 于 1 的 主 成 分 代表 绝 大 部 分 信息 ， 可 以 舍弃 其 他 主 成 分 达到 降 维 的 目的 ， 如 图 11-8 所 示 。 


> screeplot (w.pr,type="line") # 绘制 主 成 分 的 碎 石 图 
> abline (h=1) 


由 图 11-8 可 知 ， 第 五 个 主 成 分 对 应 的 值 也 大 于 1， 因 此 选择 前 五 个 主 成 分 ， 舍 弃 其 他 主 成 分 达到 降 维 目的 。 


最 后 利用 聚 类 分 析 模 型 对 加 工 后 的 数据 根据 欧 氏 距离 进行 层次 聚 类 ， 从 聚 类 结果 中 发 现 与 货币 量 聚 在 一 起 的 关键 用 户 行为 指标 。 利 用 dist 函 数 计算 欧 氏 距离 矩阵 ， 并 利用 hclust 函 数 建立 层次 聚 类 模型 ， 
最 后 通过 plot 函 数 绘制 聚 类 树 形 图 。 执 行 以 下 代码 得 到 的 聚 类 树 形 图 如 图 11-9 所 示 。 


> x<-data.frame (w.pr$loadings[,1:5]) 


> dist.e=dist (x, method="euclidean") # 计算 其 欧 色 距离 矩阵 
> modell=hclust (dist.e,method="complete") # 建立 系 统 聚 类 模型 
> plot (Imode11,main='" 聚 类 树 图 !) # 画 聚 类 树 形 图 
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图 11-8 主 成 分 的 碎 石 图 
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图 11-9 ” 聚 类 树 形 图 
由 图 11-9 可 知 ， 主 要 聚 类 结果 如 下 ( 仪 解读 与 货币 量 有 关 的 类 ) 。 
| 类 : 活跃 身上 携带 货币 量 与 日 新 增 用 户 分 在 一 类 。 
ll 类 : 活跃 保险 箱 余 额 与 日 付费 用 户 数 、 付 费 次 数 分 在 一 类 。 
川 类 : 沉淀 货币 量 (沉睡 保险 箱 结 余 和 沉睡 身上 携带 ) 与 累积 用 户 、 纯 消耗 分 在 一 类 。 
通过 登录 奖励 、 充 值 优惠 等 策略 提升 日 新 增 用 户 、 日 付费 用 户 数 、 付 费 次 数 等 措施 ， 提 高 活跃 身上 推 带 货币 量 和 活跃 保险 箱 余额 。 
11.2.3 ”模型 构建 
DAU/MAU 指 数 用 于 衡量 用 户 的 黏 性 、 留 存 率 、 游 戏 收益 情况 。 这 在 社交 游戏 中 使 用 率 非 常 高 ， 可 以 认定 为 用 户 活跃 度 指 数 ， 理 论 上 可 以 接受 的 风险 值 是 0.2， 也 就 是 说 当 值 低 于 0.2 时 ， 游 戏 的 整体 服 
务 进入 豪 退 的 阶段 。 利 用 DAU/MAU = 0.2I 临 界 点 作为 风险 值 依据 ， 研 究 衡量 外 网 货币 库存 量 的 健康 指标 。 通 过 货币 健康 度 来 对 游戏 币 发 放 进行 策略 指导 。 
首先 研究 各 关键 货币 和 用 户 信息 的 历史 趋势 ， 如 图 11-10 所 示 。 


由 图 11-10 可 知 ， 沉 睡 货 币 、 累 增 用 户 随 着 时 间 推 移 有 明显 增加 趋势 ， 月 活跃 用 户 数 随 着 时 间 推 移 有 明显 下 滑 趋势 。 但 是 DAU/MAU 的 历史 趋势 呈现 不 规则 波动 变化 ， 我 们 需要 消除 沉睡 货币 、 累 增 用 
户 、 月 活跃 用 户 数 指标 的 趋势 性 。 接 下 来 通过 指标 组 合 产 生 以 下 衍生 指标 。 


. 纯 消 耗 / 发 放 (cadr) : 纯 消耗 /游戏 币 发 放 


` 沉睡 货币 人 均值 (smpc) : (沉睡 保险 箱 结 余 十 沉睡 身上 携带 ) / ( 累 增 用 户 一 月 活跃 用 户 数 ) 
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图 11-11 决策 树 图 


由 图 11-11 的 决策 树 左边 规则 可 知 ， 当 slac ( 即 沉睡 货币 人 均值 /活跃 货币 量 均值 指标 ) 小 于 3.5 且 cadr ( 即 纯 消 耗 /游戏 币 发 放 指标 ) 小 于 27.5 时 ， 符 合 条 件 的 共有 111 条 记录 ， 其 中 有 69 条 记录 属于 异常 
情况 ， 占 比 是 62.2%， 可 以 将 该 条 规则 作为 用 户 衡量 外 网 货币 库存 量 的 健康 度 准则 ， 当 出 现 此 规则 情况 时 应 该 给 予 预警 。 


11.3 ”RFM 模 型 研究 


基于 客户 消费 行为 的 RFM 细 分 模型 可 以 为 公司 营销 决策 提供 依据 ， 已 广泛 应 用 于 众多 的 客户 关系 管理 分 析 模 式 。 本 节 介绍 RFM 模 型 的 背景 及 不 同 用 户 群 特征 ， 并 利用 R 语 言 实现 RFM 模 型 。 鉴 于 RFM 模 
型 固有 的 缺点 ， 提 出 了 RFM 模 型 的 改进 方法 。 


11.3.1 ”RFM 模 型 研究 背景 及 原理 


客户 是 公司 最 宝贵 的 资源 ， 面 对 客户 需求 的 差异 性 和 公司 资源 的 有 限 性 ， 公 司 只 能 将 有 限 的 资源 用 于 最 有 价值 和 最 需 服务 的 客户 ， 因 此 ， 进 行 有 效 的 客户 细 分 和 客户 识别 是 很 有 必要 的 。 基 于 客户 消费 
为 的 RFM 细 分 模型 可 以 为 公司 营销 决策 提供 依据 ， 已 广泛 应 用 于 众多 的 客户 关系 管理 分 析 模 式 。 以 往 的 客户 分 析 仅 仅 根 据 付费 总 金额 对 用 户 进行 划分 ， 这 里 的 RFM 模 型 则 是 从 三 个 维度 对 付费 用 户 进行 细 
， 该 模型 通过 客户 的 最 近 付 费时 间 间 隔 (R，Recency) 、 付 费 总 次 数 (F，Frequency) 和 付费 总 金额 (M，Monetary) 三 项 指标 衡量 客户 价值 。R 表 示 距 离 客 户 最 近 一 次 付费 日 期 有 多 久 ，R 值 越 低 ， 


客户 的 价值 越 高 ，F 代 表 客户 的 购买 频率 ， 表 示 一 段 时 间 内 容 户 发 生 交 易 的 次 数 ，F 值 越 高 ， 客 户 的 价值 越 高 ，M 表 示 客 户 在 公司 的 消费 金额 ， 是 一 段 时 间 内 利润 的 度量 ，M 值 越 高 ， 客 户 的 价值 也 越 高 。 通 
过 某 个 客户 近期 的 购买 行为 、 购 买 频 率 和 消费 金额 这 三 个 指标 来 描述 客户 的 价值 状态 ， 如 图 11-12 所 示 。 
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图 11-12 用 户 分 群 RFM 模 型 


根据 RFM 模 型 可 以 将 付费 用 户 细 分 为 8 种 类 型 ， 分 别 是 重要 保持 客户 、 重 要 发 展 客户 、 一 般 保 持 客户 、 一 般 客户 、 重 要 挽留 客户 、 一 般 挽留 客户 、 低 价值 客户 和 一 般 价值 客 户 。 8 种 类 型 的 特征 如 表 11-2 
所 示 。 


表 11-2 ”REFM 类 型 解释 


用 户 类 型 特 征 


这 类 客户 购买 频繁 、 购 买 金额 大 且 最 近 一 次 交易 时 间 间 隔 短 ， 客 户 实 际 贡献 的 价值 很 局 ， 且 
重要 保持 客户 | 具有 很 高 的 潜在 价值 ， 是 游戏 中 最 优质 的 客户 群 ， 游 戏 利润 的 主要 页 献 者 ， 因 此 可 视 为 公司 的 
重要 保持 客户 ,继续 维持 与 这 类 客户 的 关系 是 公司 利润 的 重要 保障 


这 类 客户 最 近 一 次 交易 时 间 间 隔 短 、 购 买 金额 大 ， 购 买 频率 较 低 ， 对 公司 的 利润 页 献 不 及 
“重要 保持 ”型 客户 ; 但 是 ， 这 类 客户 具有 很 高 的 潜在 价值 ， 如 果 公 司 分 机、 了解 、 满 足 他 们 的 
需求 ， 利 用 针对 性 的 营销 手段 吸引 他 们 ， 提 高 购买 频率 ， 将 给 公司 带 来 更 多 利润 ， 因 此 这 类 客 
户 可 视 为 公司 重要 的 发 展 客户 


这 类 客户 最 近 一 次 交易 时 间 间 隔 短 ， 购 买 频 率 高 ， 属 于 活路 客户 ,但 毗 计 购 头 交易 金额 较 
少 ,公司 利润 也 较 少 。 这 类 客户 有 可 能 购买 力 有 限 ， 也 可 能 购买 力 强 ,但 对 公司 的 一 些 产 品 不 
感 兴 趣 。 加 大 这 类 客户 的 营销 投入 存在 一 定 的 失败 风险 ,但 适当 维持 与 这 些 客 户 的 关系 又 能 使 
公司 获得 一 定 利润 。 因 此 ， 这 类 客户 属于 公司 的 一 般 保 持 客户 


这 类 客户 最 近 一 次 交易 时 间 间 隔 短 ,但 购买 频率 和 购买 量 都 较 低 ， 无 法 立即 给 公司 市 来 丰厚 
一 般 客 户 利润 ; 如 有 果 他 们 属于 新 客户 ， 那 么 是 公司 扩大 客户 量 和 市 场 份 额 的 重要 客户 源 ， 属 于 重要 发 展 
客户 ; 如 果 属 于 老 客户 ， 则 是 低 价 值 客户 。 所 以 这 一 类 统称 为 一 般 客户 


这 类 客户 与 公司 的 购买 频率 很 高 、 购 买 量 也 很 多 ， 但 长 时 间 没 有 与 公司 交易 ， 存 在 流失 风 
重要 挽留 客户 | 险 。 对 这 类 客户 ， 公 司 应 尽量 挽留 ， 通 过 营销 手段 提高 客户 忠诚 度 ， 让 客户 继续 留 在 公司 。 因 
此 可 视 为 公司 的 重要 挽留 客户 ,是 公司 利润 的 潜在 来 源 之 一 


里 要 发 展 客户 


一 般 保持 客户 


11.3.2 案例: 付费 用 户 RFM 模 型 研究 


有 一 款 游戏 最 近 一 周 的 付费 类 数据 包括 本 周 最 后 一 次 付费 日 期 、 付 费 次 数 、 付 费 金额 等 。 现 在 将 数据 导入 R 中 ， 进 行 数据 处 理 ， 选 择 合适 的 划分 方法 。 


导入 
fm data <- read.csv ("RFM data.csv") 
将 最 后 付费 日 期 转换 成 日 期 格式 

fm datas$slast date <- paste ( 


substr (rfm datas$slast date,1,4),substr (fm data$last date,5,6), 


十 substr (rfm data$last date,7,8),sep="/") 
> rfm data$last date <- as.Date (rfm data$last date,"%Y/ Sn/ sd") 
> # 增加 距离 统计 日 的 相隔 天 数 
> rfm qatasStime internal <- max (fm data$last date)-rfm data$last date 
> # 查看 数据 的 前 六 行 
> head (rfm data) 
player id last date pay cnt pay mt time internal 
1 1 2016-10-02 2 48 0 days 
受 2 2016-10-02 2 村 0 days 
3 3 2016-10-02 1 6 0 days 
4 4 2016-09-27 2 31 5 days 
5 . ， 28 业 6 4 days 
6 016-10-02 5 73 0 days 
># 杰 看 不 同 指 标的 108 孝 舌 情 况 
> quantile (rfm dqataS$time internal,probs = seq(0,1,0.1)) 
Time differences in days 
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 
0 0 0 0 0 0 0 0 于 2 6 
> quantile (zfm qata$pay mt,probs = seq(0,1,0.1)) 
0% 10% 20% 30% 40% 50% 60% 70% 
0.03 1.00 1.00 6.00 6.00 6.00 7.00 18.00 
80% 90% 100% 
30.00 57.00 11206.00 
> quantile (rfm data$pay cnt,probs = seq(0,1,0.1)) 
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 
] ] ] ] ] ] ] 2 2 3 42 


值 时 ，tagR 为 1，tagF、tagM 为 0。 
建立 新 的 衍生 指标 


tas 
tas 
tas 
rfm data) 


fm da 
fm da 
fm da 
ad ( 工 


tagR <- 
tagF < 一 
tagM <— 


# 
rr 
rr 
rr 
he 


2016-] 


从 百分比 结果 可 以 看 出 ， 不 同 指标 的 数据 存在 明显 左 偏 现象 ， 用 传统 的 按照 平均 数 进 
70% 分 位 数 0 天 ，F 的 基准 值 取 60% 分 位 数 的 1 次 ，M 的 基准 值 取 509% 分 位 数 的 6 元 。 由 此 产生 新 的 三 个 


ifelsel(r 


fm da 


ifelsel(r 


fm da 


ifelsel(r 


0-02 2 


2016=1 


0-02 


16-] 


2 
0-02 ] 


16-0 
16-0 
16-] 


OOPRODP 


9=27 
9-28 
UV=02 
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这 样 每 个 用 户 就 有 3 个 标识 ， 
户 人 数 和 付费 金额 ， 并 绘 


fm da 


48 
7 
6 

了 
6 

了 3 


<= 1,0,1 ) 


t <= 6,0,1) 


days 
days 
days 
days 
days 
days 


> 
> 
> 
> 
> 
player id “last date pay cnt pay mnt time internal tagR tagF tagM 
1 
之 
3 
4 
3 
6 


OUOOO 


ta$stime internal <= 0,1,0) 
ta$spay cnt 
LaSpay mn 


分 别 为 tagR、tagF、tagM， 每 个 标识 有 0 和 1 两 种 取 值 ， 因 此 用 户 类 
l 柱 状 图 ， 如 图 11-13 所 示 。 


## 行 分 箱 的 方法 不 适 


信人 二 


in 


> # 给 用 户 打 上 类 型 标签 
> rfm data$type <- "一 般 挽 留用 户 " 
> rfm data[lrfm data$tagR==1 & rfm data$tagF==1 & rfm data$tagM==1,'type'] <- "重要 保持 客户 " 
> rfm datalrfm data$tagR==1] & rfm qdataStagE==0 & rfm data$tagM==1,'type'] <- "重要 发 展 客户 " 
> rfm datalrfm data$tagR==1 & rfm data$tagF==1 & rfm data$tagM==0,'type'] <- "一 般 保持 客户 " 
> rfm datalrfm data$tagR==1 & rfm data$tagF==0 & rfm data$tagM==0,'type'] <- "一 般 客户 " 
> rfm datal[lrfm data$tagR==0 & rfm data$tagF==1 & rfm data$tagM==1,'type'] <- "重要 挽留 客户 " 
> rfm datalrfm data$tagR==0 & rfm data$tagF==1] & rfm data$tagM==0,'type'] <- "一 般 客户 " 
> rfm datal[lrfm data$tagR==0 & rfm data$tagF==0 & rfm data$tagM==0,'type'] <-" 低 价值 客户 " 
> head (rfm data) 
player id “last date pay cnt pay mnt time internal tagR tagF tagM type 
1 1 2016-10-02 48 0 days ] ] 1 重要 保持 客户 
2 2 2016-10-02 2 7 0 days 重要 保持 客户 
3 3 2016-10-02 出 6 0 days 下 0 0 一 般 客户 
4 4 2016-09-27 2 仿 于 5 days 0 ] 1] 重要 挽留 客户 
5 2016-09-28 .| 6 4 days 0 0 0 ” 低 价 值 客户 
6 2016-10-02 5 73 0 days ] ] 1 重要 保持 客户 
># 统计 不 同 用 户 洛 的 人 娄 
> library (sqldf) 
> rfm data sum <- sqldf("select type,count (distinct player id) as usr cnt, 
十 sum(pay mnt) as pay mnt sum from rfm data group by type") 
> # 按照 付费 金额 进行 降序 排列 
> rfm data sum <- rfm data sum[orqer (rfm data sum$pay mnt sum,decreasing = T),] 
> rfm data sum$usr cnt rate <- paste0 (round (rfm data sum$usr cnt*100/ 
十 Sum (zfm data sum$usr cnt),2),"%$") 
rfm data sum$pay mt sum rate <- paste0 (round (rfm data sum$pay mnt sum*100/ 
于 sum (zfm data sum$pay mnt sum),2),"%") 
> knitr::kable (rfm data sum) 
type | usr cnt| pay mt sumlusr cnt rate |pay mt sum rate | 
| | 一 一 一 一 一 一 : | 一 一 一 一 一 一 一 一 一 一 一 : | :一 一 一 一 一 一 一 一 一 一 一 一 | 和 
3 重要 保持 客户 1098 143775.00|129.03% 81 .24% 
6 重 0 378 16717.00|19.99% 9 .45% 
7 重要 挽留 231 7567.00|16.11% 4.28% 
3 S33 | 1313| 4715.03|34.72% |12.66% | 
4 一 般 挽 留用 户 41 2072.00|1.08% 1.17% 
1 低 价值 客户 | 601 | 1876.00|15.89% |1.06% | 
2 | 一 般 保持 客户 120 243.0013.17g 0.14% 
>> # 绘制 柱状 图 
> library (RColorBrewer) 
> par (mfrow=c (2,1)) 
> barplot (rfm data sum$pay mt sum,col=brewer.pal (12,"Set3") [1:8], 
十 border = F, main= "付费 金额 统计 ") 
> barplot (rfm data _sumSusr Cnt,col = brewer.pal (9，"Set1") [1:8], 
+ border = F,names.arg = rfm data sum$type, 
十 main=" 付 费 人 数 统计 中 
> par (mfrow=c (1,1)) 


合 此 数据 。 选 择 按照 百分比 的 实际 结果 作为 划分 标准 ， 确 定 各 个 维度 基 


量 : tagR、tagF、tagM。 当 值 大 于 基准 值 时 ，tagR 为 0，tagF、tagM 为 1， 


型 可 以 分 为 23 = 8 种 。 根 据 前 面 的 RFM 分 类 ， 给 每 位 用 户 打上 相应 的 类 型 标签 ， 统 计 不 同 RFM 类 


准 值 。 其 中 R 的 基准 值 取 


当 值 小 于 等 于 基准 


型 的 用 


付费 金额 统计 


0 40 000 80 000 140 000 


付费 人 数 统计 


重要 保持 客户 重要 发 展 客户 。” 重要 挽留 客户 一 般 客户 。” ”一般 挽留 客户 低 价 值 客户 “一般 保持 客户 


图 11-13 ”RFM 分 群 人 数 和 金额 统计 


0200 600 1 000 


由 图 11-13 可 知 ， 重 要 保持 客户 占 了 全 部 付费 用 户 人 数 的 29%， 贡 献 了 81% 的 周 收入 ， 是 该 款 游戏 收入 的 主要 贡献 人 群 ， 需 要 重点 维护 好 这 批 客 户 ， 提 供 VIP 服 务 策略 。 一 般 客户 虽然 占 了 全 部 付费 人 数 
的 34.7%， 但 是 付费 金额 只 占 到 2.66%。 我 们 需要 对 一 般 客户 再 进一步 细 分 研究 ， 如 果 是 新 用 户 ， 可 以 给 他 们 推荐 新 的 玩法 和 角色 ， 更 进一步 激发 他 们 的 付费 能 力 ， 如 果 是 老 玩家 ， 那 么 他 们 可 能 付费 能 力 有 
限 ， 更 关注 一 些 超 值 大 礼包 ， 做 活动 促销 时 可 以 对 他 们 进行 推广 ， 提 高 整体 付费 渗透 率 。 


11.3.3 ”RFM 模 型 的 不 足 及 改进 


传统 RFM 分 析 简 单 有 效 ， 但 这 种 细 分 方法 也 存在 一 定 的 缺点 。 传 统 RFM 模 型 的 劣势 如 图 11-14 所 示 。 


* 用 户 评分 过 于 简单 : 评分 标准 是 根据 选择 赚 值 划分 用 户 群 ， 这 种 通过 简单 经 验 值 分 类 的 方法 容易 受到 分 析 者 主观 经 验 影响 ; 而 且 如 果 将 指标 从 两 个 等 级 划分 为 5 个 等 级 ， 就 会 得 到 125 个 用 户 群 ， 以 至 
于 难以 形成 对 每 个 客户 群 的 准确 理解 ， 也 难以 针对 每 个 细 分 用 户 群 指定 有 效 的 营销 策略 。 


* 用 户 行为 变化 无 法 追踪 : 传统 的 RFM 模 型 仅仅 是 利用 统计 周期 内 的 数据 对 指标 进行 分 级 ， 无 法 体现 用 户 的 以 前 行为 ， 不 能 发 现 用 户 不 同时 期 的 状态 变化 。 
` 无 法 消除 指标 间 的 相互 影响 : 这 是 因为 统计 周期 内 的 消费 频率 (F) 与 消费 金额 (M) 这 两 个 指标 存在 共 线 性 问题 。 
" RFM 权 重 困难 : 不 同 指标 间 的 权重 正常 来 说 是 不 同 的 ， 比 如 付费 金额 应 该 会 比 付费 频率 和 最 后 一 次 付费 时 间 相 对 更 重 一 些 ， 但 是 如 何 确定 权重 ， 不 同 的 分 析 者 都 会 有 不 同 的 做 法 。 


利用 数据 分 析 的 方法 ， 针 对 传统 RFM 模 型 的 不 足 进行 相应 优化 ， 得 到 改进 的 RFM 模 型 ， 如 图 11-15 所 示 。 


图 11-14 传统 RFM 模 型 的 劣势 


图 11-15 ”RFM 改 进 模型 


. 更 多 维度 描述 用 户 : 可 以 增加 用 户 的 本 周 付 费 失 败 总 次 数 、 本 周 付费 失败 总 金额 、 历 史 付 费 总 次 数 、 历 史 付 费 总 金额 、 本 周平 均 付 费 金 额 等 维度 ， 可 利用 相关 性 分 析 查 看 各 变量 间 的 关系 。 
数据 降 维 : 利用 主 成 分 分 析 进 行 降 维 处 理 ， 消 除 各 指标 间 的 线性 影响 。 
. 用 户 分 群 : 利用 聚 类 分 析 对 用 户 进行 划分 ， 可 以 分 为 超 R、 大 R、 中 R、 小 R 等 。 


* 运营 策略 支持 : 运营 可 以 利用 用 户 分 群 进行 精细 化 运营 ， 甚 至 可 以 结合 关联 推荐 、 智 能 推荐 系统 发 现 不 同 用 户 群 的 购物 习惯 ， 对 道具 进行 捆绑 打折 销售 ， 或 者 利用 协同 过 滤 的 推荐 算法 对 个 体 玩 家 进 


行 个 性 化 推荐 。 
改进 RFM 模 型 具有 以 下 优势 。 
` 用 户 评分 不 是 离散 型 值 ， 而 是 连续 的 患 诚 度 评分 。 
` 用 户 分 类 通过 实际 数据 ( 聚 类 ) 来 决定 ， 而 不 是 简单 经 验 值 分 类 。 
. 支持 灵活 可 扩展 的 运营 策略 。 


.方便 以 更 有 效 的 方式 选择 策略 来 挽留 用 户 。 


11 了 4 四 结 


本 章 介绍 了 用 于 衡量 游戏 收入 的 常用 指标 ， 货 币 类 指标 与 活跃 类 指标 间 的 关系 ， 针 对 付费 用 户 最 常用 的 FRM 模 型 原理 及 R 语 言 实现 ， 并 针对 传统 RFM 模 型 的 固有 缺点 提出 改进 方法 。 


第 12 章 Rattle: 可 视 化 数据 挖掘 工具 


` 第 13 章 ”快速 搭建 游戏 数据 分 析 平 台 


第 12 章 ”Rattle: 可 视 化 数据 挖掘 工具 


R 语 言 提 供 的 众多 扩展 包 极 大 地 丰富 了 R 语 言 的 功能 ， 同 时 也 给 数据 分 析 员 使 用 R 语 言 带 来 了 苦恼 。 数 据 分 析 人 员 在 想 实现 某 一 个 数据 挖掘 工作 时 ， 反 而 不 知道 如 何 下 手 。 本 章 希 望 通过 对 R 语 言 的 数据 挖 
掘 可 视 化 工具 一 一 Rattle 的 详细 介绍 ， 帮 助 数据 分 析 人 员 利 用 R 语 言 快 速 完成 数据 探索 、 数 据 可 视 化 、 数 据 建 模 、 模 型 评估 等 一 系列 数据 挖掘 工作 ， 并 通过 学 习 Log 文 件 ， 迅 速 提升 使 用 R 语 言 工具 的 能 力 。 


12.1 Rattle 简 介 及 安装 


作为 优秀 的 统计 软件 包 ，R 语 言 也 提供 了 强大 的 数据 挖掘 工具 ， 但 是 这 些 工具 分 散在 数 以 万 计 的 R 包 之 中 ， 而 且 编写 脚本 往往 也 会 成 为 快速 解决 问题 的 障碍 。Rattle 包 的 出 现 很 好 地 解决 了 这 个 问题 。 


一 | 


12.1.1 Rattle 简 介 


Rattle 是 一 个 用 于 数据 挖掘 的 R 图 形 交互 界面 (GUI) ， 可 用 于 快捷 处 理 常见 的 数据 挖 扬 问题。 从 数据 的 整理 到 模型 的 评价 ，Rattle 给 出 了 完整 的 解决 方案 。Rattle 和 R 平 台 良好 的 交互 性 ， 又 为 用 户 使 用 
R 语 言 解决 复杂 问题 开启 了 方便 之 门 。Rattle 易 学 易 用 ， 不 要 求 很 多 的 R 语 言 基础 ， 被 广泛 应 用 于 数据 挖掘 实践 和 教学 之 中 。 


在 R 中 ，Rattle 使 用 RGtk2 包 提供 的 Gnome 图 形 用 户 界面 ， 可 以 在 Windows、MAC OS/X、Linux 等 多 个 系统 中 使 用 。 
Rattle 不 仅仅 是 一 个 所 见 即 所 得 的 GUI 工具 ， 它 还 具有 很 多 扩展 功能 。pmml 包 是 在 Rattle 基 础 上 发 展 起 来 的 一 个 R 包 ， 它 使 用 基于 PMML 的 开放 标准 XML 或 预测 模型 标记 语言 。 按 这 种 方式 由 R 导 出 的 模 
型 可 以 输入 类 似 于 由 云 计 算 机 驱动 的 ADAPA 决 策 引 警 的 工具 ， 从 而 可 以 在 多 个 平台 上 运行 。 


12.1.2 Rattle 安 装 
以 在 Windows 系 统 中 安装 Rattle 为 例 ， 安 装 步骤 如 下 。 
在 R 控 制 台 键 入 即 可 完成 Rattle 的 安装 : 


install .packages (“RGtk2”) 
install.packages (“rattle” ) 


通过 library (rattle) 载 入 该 包 ， 并 通过 rattle () 命令 调 出 Rattle 界 面 。 


library (rattle) 
rattle( ) 


Rattle 初 始 界面 如 图 12-1 所 示 。 


RR Data Miner - [Rattle] i . EME Xx 


project Tools Settings Help @ ratte O00 4.1.0 togaware.com 
全 | 目 < 
执行 Report Export 


Dats | Explore | Test | Transform | Custer | Associate | Mode | Evaluate | Log 


Source: | © ODBC © R Dataset © RData Fle © Library © Corpus © Scnpt 


Filename: Separator: |, | Decimal: .| Header 
由 Partition |70/15/15 ] Seed:| |42 - View 


Target Data Type 
| 图 Auto © Categoric © Numenc © OX 


@ Input lgnore Weight Calculator: 


Welcome to Rattle (rattle.togaware .com). 


Rattle is a free graphical user interface for Data Mining, developed using R. R is a free software 
environment for statistical computing and graphics. Together they provide a sophisticated 
environments for data mining, statistical analyses, and data visualisation. 


图 12-1 Rattle 初 始 界 面 


12.2 功能 预 哆 


Rattle 的 界面 依次 排列 的 是 菜单 栏 、 工 具 栏 和 标签 栏 ， 如 图 12-1 所 示 。 
签 栏 中 的 标签 各 自 完 成 数据 挖掘 工作 中 的 一 个 相关 步 又。 

1) Data: 选择 数据 源 ， 输 入 数据 。 

2) Explore: 执行 数据 探索 ， 理 解数 据 分 布 情况 。 

3) Test: 提供 各 种 统计 检验 。 

4) Transform: 变换 数据 的 形式 。 

5) Cluster: 数据 聚 类 ， 包 括 k- 均 值 聚 类 、 系 统 聚 类 和 双 聚 类 (biclustering) 。 

6) Associate: 关联 规则 方法 。 


7) Model: 内 容 最 丰富 的 一 个 标签 ,提供 多 种 算法 : 决策 树 、 随 机 森林 、 组 合算 法 、 支 持 向 量 机 、 线 性 模型 、 人 工 神经 网 络 、 生 存 分 析 。 如 果 想 简单 了 解 各 种 算法 的 基本 介绍 ， 只 需要 将 鼠标 指针 停留 
在 上 面 即 可 ， 如 图 12-2 所 示 。 


Model Bu 村 er: rpart 
Include Missing 


ej] eis] 


图 12-2 ”Model 界面 


8) Evaluate: 模型 评估 ， 在 Evaluate 界 面 中 ， 程 序 包 提供 了 一 系列 模型 评估 标准 ， 包 括 其 中 有 混淆 矩阵 (Error Matrix) 、 模 型 风险 表 (Risk) 、 模 型 ROC 曲 线 (ROC) 、 得 分 表 (Score) 等 。 评 估 
界面 如 图 12-3 所 示 。 


3 
project Took Settngs Help @ rae 00 4.1.0 toqaware.com 
; 克 Bb 目 < @ 电 / 网 
执行 新建 打开 保存 Report ”Export 停止 退出 Connect R 
一 一 一 一 一 一 一 一 一 一 Evaluate |Log, 


Type: 图 Error Matrix Risk Cost Curve ® Hand Lift ROC Precsion Sensitivity prv Ob Score 


Modek [| TrlAn error matrix simply lists in tabular form the et 门 ONT KMeans [| HClust 
number of predicted cases that are correct (true 

Data: ® Tralpositives and true negatives) and incorrect (false CSV File | 车) | 吕 | 周 R Dataset | | 
positives and false negatives). Both the raw numbers se 

Risk Variable: land the proportions will be displayed in two tables. | Report @ Class ® Probability Indude: @® ldentifiers 


Error Matrix 


Nin error matrix shows the true outcomes against the predicted 
outcomes. TWO tables Will be presentced here. The first Will be Zhe 
count of observations and the second will be the proportions. 


图 12-3 ”Evaluate 界面 


9) Log: 数据 挖掘 过 程 的 记录 。 主 要 用 于 记录 以 上 介绍 的 所 有 功能 的 具体 执行 情况 ， 并 给 出 所 进行 Rattle 操 作 的 R 代 码 。 


12.3 数据 导 


数据 的 来 源 可 以 有 很 多 。R 内 置 有 许多 数据 集 ， 也 能 从 各 式 各 样 的 来 源 中 读 取 数据 ， 而 且 支 持 大 量 的 文件 格式 。 利 用 R 语 言 强大 的 数据 导入 能 力 ，Rattle 也 可 以 直接 访问 这 些 数据 。 


12.3.1 导入 CSV 数 据 


有 众多 的 格式 和 文本 文件 标准 可 用 于 存储 数据 。 最 常用 于 人 存储 数据 的 通用 格式 为 分 隔 符 值 ( 即 CSV 或 制 表 符 分 隔 文件 ) 。 


使 用 Data 标 签 中 的 Spreadsheet 按 钮 ， 可 以 轻松 将 CSV 文 件 导 入 Rattle 中 ， 如 图 12-4 所 示 。 


RR Data Miner - [Rattle 


Source: 图 Spreadsheet © ARFF © ODBC © R Dataset © RData Fle © Library © Corpus © Scnpt 


Filename: 6 E) , 和 人 et . 人 2 | Separator: 围 Decimal: 围 Header 


| 下 parison 142 上 
Oirpst lonore weomtaaatr| | fy pp 


图 12-4 Data 标签 


单 击 Filename 可 以 打开 “选择 文件 ”对 话 框 ， 选 择 需要 导入 的 CSV 文 件 。 例 如 ， 导 入 Rattle 包 自 带 的 天 气 数 据 集 weather.csv， 如 图 12-5 所 示 。 


~ 大 小 修改 日 期 
180.6 KB 2015/5/9 
366 字 节 2015/5/9 


weather.csv 2015/5/9 


™ 


CSV Files 


图 12-5 ”打开 rattle 包 自 带 的 weather.csv 数 据 集 


现在 需要 将 数据 从 文件 中 导入 Rattle 中 ， 通 常 单 击 执行 按钮 (或 者 按 F2 键 ) ， 如 图 12-6 所 示 。 


| 


和 Rattle OO 4.1.0 togaware. com 


Source: @@ Spreadsheet © ARFF © ODBC © R Dataset © RData Fle © Library © Corpus © Scnpt 


@ Input lgnore Weight Calculator: | | | ©® Ao © Coiegoric © Numeric © XXXX ] 


图 12-6 ” 单 击 执行 按钮 ， 导 入 数据 到 Rattle 中 


导入 结果 如 图 12-7 所 示 。 


OO Input 3 lgnore Weight Calculator: | | 


No. Variable 
Date Ident 


Target Data Type 
图 Auto © Categoric © Numenc © OX ] 


Comment 
Unique: 366 


5 

9 
3 
wO 
上- 


Constant Unique: 1 
Unique: 180 


Unique: 187 


Location 
MinTemp Numenc 
MaxTemp 

Rainfall Unique: 47 


Evaporation Unique: 55 


1 
2 
3 
4 
5 
6 
了 
8 
9 


Sunshine 
WindGustDir 
WindGustSpeed 


Unique: 114 Missing: 3 
Unique: 16 Missing: 3 
Unique: 35 Missing: 2 


WindDir9am 

WindDir3pm Categonc 图 
WindSpeed9am Numenc 图 
WindSpeed3pm Numeric _ 财 


上 
O 


Unique: 16 Missing: 31 
Unique: 16 Missing: 1 


© ©@©@@@©@@e@e@ee 


Unique: 22 Missing: 7 


SD9@@@@©@@©@@e@eeDe 
S93@0@0@0@00@0@e@eQeeQenqee 
D9@0@0000O00@eepeQeeee 

SD9©@@@@@@@@e@eee 


3 


Uniaue: 26 


图 12-7 显示 weathet.csv 数 据 集 中 的 变量 名 


数据 导入 后 ，Rattle 会 利用 sample 函 数 进行 随机 抽样 ， 将 样本 按照 70: 15: 15 的 比例 分 成 训练 集 、 验 证 集 和 测试 集 ， 可 以 通过 Partition 调 整 各 部 分 数据 集 的 占 比 ， 也 可 以 通过 Seed 改 变 随 机 种 子 。 查 
看 Log 的 记录 如 下 。 


set.seed (crv$seed) 

CrsSnobs <- nrow(crs$dataset) # 366 observations 

crs$sample <- crsStrain <- sample (nrow (crs$dataset), 0.7*crs$nobs) # 256 observations 

crssvalidate <- sample (setdiff (seq len(nrow(crs$dataset)), crsstrain), 0.15*crs$nobs) # 54 observations 
crsstest <- setdiff (setdiff (seq len (nrow (CrS$qataset) ) ， crs$train), crs$validate) # 56 observations 


通过 分 区 的 脚本 可 以 看 出 ，weather 数 据 集 一 共有 366 个 样本 ， 其 中 训练 集 有 256 个 样本 ， 验 证 集 有 54 个 样本 ， 测 试 集 有 56 个 样本 。 


还 可 以 通过 View 或 Edit 按 钮 ， 查 看 或 修改 weather 数 据 集 ， 如 图 12-8 所 示 。 


人 Rattle Dataset - dfedit version 0.6.1 


下 
、 


2 
3 
4 
3 
6 
7 
8 
9 


Date 
2007-11-01 
2007-11-02 
2007-11-03 
2007-11-04 
2007-11-05 
2007-11-06 
2007-11-07 
2007-11-08 
2007-11-09 
2007-11-10 
2007-11-11 
2007-11-12 
2007-11-13 
2007-11-14 
2007-11-15 


Location MinTemp MaxTemp Rainfall Evaporation Sunshine WindGustDir WindGustSpeed WindDir9am We 


Canberra 
Canberra 
Canberra 
Canberra 
Canberra 
Canberra 
Canberra 
Canberra 
Canberra 
Canberra 
Canberra 
Canberra 
Canberra 
Canberra 
Canberra 


24.3 
26.9 
23.4 
15.5 
16.1 
16.9 
18.2 


0 
3.6 
3.6 


3.4 
4.4 
5.8 
7.2 
5.6 


6.3 
9.7 
3.3 
9.1 
10.6 
8.2 
8.4 
4.6 
4.1 
7.7 


NW 
ENE 
NW 
NW 


图 12-8 ” 单 击 View 或 Edit 按 钮 调 出 weather 数 据 集 
如 果 是 通过 Edit 按 钮 调 出 的 窗口 ， 可 以 直接 在 上 面 修改 数据 再 单 击 “ 确 定 ” 按 钮 ， 完 成 数据 的 修改 (依赖 于 RGtk2Extras 扩 展 包 ， 第 一 次 打开 时 会 提示 是 否 安装 ， 直 接 确定 安装 即 可 ) 。 
细心 的 读者 估计 已 经 留意 到 ， 图 12-5 的 右 下 角 有 个 选择 文本 文件 格式 的 下 拉 列 表 (默认 情况 下 是 CSV Files) ， 从 中 可 以 选择 TXT、Excel、Excel 2007 格 式 的 文件 ， 如 图 12-9 所 示 。 
假设 在 我 的 文档 目录 下 已 经 包括 三 个 文件 : iris.txt、iris.xls、iris.xlsx， 接 下 来 演示 如 何 将 这 三 个 文件 分 别 导 入 Rattle 中 。 
由 于 TXT 文件 是 由 制 表 符 分 隔 (Tab-Delimited) 的 ， 所 以 需要 将 分 隔 符 (Separator) 设置 为 “无 ” ( 删 掉 吾 号 ， 因 默认 是 导入 CSV 格 式 的 文件 ) ， 才 能 将 TXT 文件 导入 Rattle 中 ， 如 图 12-10 所 示 。 
可 以 通过 View 查 看 导入 的 数据 。 
将 iris.xls ( 见 图 12-11a) ) 、iris.xlsx ( 见 图 12-11b) ) 分 别 导 入 Rattle 中 。 


通过 Log 查 看 记录 可 以 发 现 ， 导 入 xls 和 xlsx 文 件 都 是 使 用 readxl 包 中 的 read_excel 函 数 。 


library (readxl, quietly=TRUE) 
crs$dataset <- read excel ("C:/Users/daniel.xie/Documents/iris.xls") 
crs$dataset <- read excel ("C:/Users/daniel.xie/Documents/iris.xlsx") 


readx| 包 不 同 于 其 他 读 取 Excel 数 据 的 包 ， 如 XLConnect、xlsx 等 包 的 安装 需要 依赖 于 本 地 的 jre 环 境 和 mava 包 ， 故 readx| 包 可 作为 读 取 Exce| 数 据 的 首选 。 


~ 大 小 ”4 修改 日 期 4^ 
audit.csv 180.6 KB 20135/5/9 
366 字 节 2015/5/9 


a weather,csyv 


Rt | ree! 2007 Fiee 
All Files 


图 12-9 ”导入 的 电子 表格 可 以 是 CSV、TXT、Excel、Excel 2007 等 格式 


@ qg 
停止 。 退出 


Source: 图 Spreadsheet © ARFF © ODBC © R Dataset © RData File © Lbrary © Corpus © Scnpt 


re ee here eee 
porisen em 


Oo Oro veoronior| | | @ hn © Coeoorc © Numerc © om] 
No. Varniable Data Type Input XXXX Risk Weight Comment 

1 Sepal.Length Numeric +@ Unique: 35 

2 Sepal.Width Numeric 同 Unique: 23 
3 Petal.Length Numeric 加 Unique: 43 
4 Petal.Width Numernc ® 
5 


Unique: 22 
Species Categonic 同 Unique: 3 


图 12-10 “导入 TXT 文件 


'R Data Miner - [Rattle (iris.xis)] 

: @ Es a | \ | 8 
Wi ee 打开 保存 有 Export ”停止 Connect R 

me ee pr ee pr Pr rr Es 


Source: 凯 Spreadsheet 人 ARFF 全 ODBC ® R Dataset ® RData Fle SS Lbrary © Corpus © Scnpt 


Fienamel| |a iris.xls | 让 ||Separator: | Decimvat | . | Header 


partition |70/15/15 42 


Tr jo a | Target Data Type 一 一 
nput lgnore Weight Calculator: | 局 Auto 厨 Categoric 局 Numeric ® WO 


INo. Variable Data Type Input OO 下 Waght Comment 


1 sepal.Length Numeric 济 , : 全 Unique: 35 


Sepal.\Width Numeric 沪 , 人 Unique: 23 


Petal,Length Mumerc 六 Unique: 43 


到 

3 

4 Petal,Width Numerc 六 Unique: 22 
3 


Specles Categonc 六 Unique: 3 


a) 导入 xls 文件 

缚 RData Miner - [Rattle (risxlsx] = 
Broject Iools Settngs Heb D Ratte O00 4.1.0 togaware.cor 
-@ ] 启 | 
: 打开 生存 Report Export 
A 


Source: 大 Spreadsheet 辐 ARFF 合 QDBC 辐 R Dataset 加 RData Fle 告 Library 


RX 


全 Corpus 局 Scnpt 


rerame inis.x Separator: 围 Decimal: 二 而 Header 


partition |70/15/15 |42 昌 


-Target Dat TYpe 
伍 input 入 lgnore Weight Calculator: | | 。 


大 Auto 四 Categcnc 人 Numene ® VON 

No. Vanable Data Type Input Comment 
1 SepalLength Numeric 
sepal.\Width Numeric 
Petal.Lengih Numeric 
Petal.Width Numeric 


Unique: 35 
Unique: 23 
Unique': 43 
Unique: 22 


Species Categonc 加 Unique: 3 


b) 导入 xlsx 文件 


图 12-11 导入 xls 和 xlsx 文 件 


12.3.2 ”导入 ARFF 数 据 


ARFF (Attribute-Relation File Format) 文件 是 Weka 上 默认 的 储存 数据 集 文件 ， 主 要 由 两 部 分 组 成 : 文件 头 和 数据 。 


以 Rattle 包 自 带 的 数据 集 weather.arff 为 例 进行 辅助 说 明 。 文 件 头 包括 relation 说 明和 属性 说 明 。@ relation weather@attribute Date date"yyyy-MM-dd"@attribute MinTemp 


numeric@attribute RainTomorrow{ No'，'Yes'} 属 性 部 分 声明 属性 名 称 和 类 别 (如 果 为 枚 举 型 ， 则 说 明 预 设 数 据 值 ) 。 数 据 部 分 由 @data 引 导 。 主 要 处 理 的 数据 类 型 有 枚 举 型 (nominal) 


、 数 值 型 
(integer real) 、 文 本 型 (string) 、 日 期 型 (date) 。 


Qdata 
rr2007-11-01', 'Canberra',8,24.3,0,3.4,6.3, 'NW',30, 'SW', 'NW',6,20,68,29,1019.7,101 
'2007-11-02','Canberra',14,26.9,3.6,4.4,9.7, 'ENE', 39, 'E', 'W',4,17,80,36,1012.4 


577/7Ld.d,23.6. NO';3.06; "Ye 
:1008.4;5;3;717.93,25.7, 'Yes',3,6,'Yes" 


ARFF 格 式 文 件 的 特点 : 各 个 记录 相互 独立 ， 没 有 顺序 要 求 ， 同 时 各 个 记录 间 不 人 存在 关系 。 


通过 Data 标 签 下 的 Source 来 源 选 择 ARFF 格 式 ， 将 ARFF 数 据 导入 Rattle 中 。 如 图 12-12 所 示 。 


RB R Data Miner - [Rattle (iris.xlsx) 7 EE > 
:| DOD BS 0 4 ee@ ga | 站 
执行 新 建 打开 促 在 Report Export 退出 Connect R 


Dat: | Explore | Test | Transforr | Custer | Associate | Mode | Evauate [ Log 


Source: © Spreadsheet |@ ARFF | © ODBC © R Dataset © RData Fle © Library © Corpus ©® Scnpt 


园 Partition |70/15/15 ] |42 自 
| Target Data Type 
z Input lgnore Weight Calculator: | | ] 图 Auto © Categoric © Numeric © XXXX 


图 12-12 ”导入 ARFF 格 式 数 据 


查看 Log 记 录 ， 发 现 是 通过 foreign 包 的 read.arff 函 数 导 入 数据 。 


# The 'foreign' package provides the 'read.arff' function 
require (foreign, quietly=TRUE) 
# Load an ARFF file. 

crs$dataset <- read.ar 


ff("file:///C:/Program Files/R/R-3.1.2/library/rattle/arff/weather.arff") 


12.3.3 ”导入 ODBC 数 据 
很 多 数据 储存 在 数据 库 和 数据 仓库 中 。 开 放 数 据 库 连 接 (ODBC) 标准 已 经 发 展 为 从 数据 库 中 访问 数据 的 常用 方法 ， 该 技术 是 基于 结构 化 查询 语言 (SQL) 用 于 查询 关系 数据 库 。 
这 里 讨论 如 何 直接 从 数据 库 中 访问 数据 。Rattle 通 过 ODBC 选 项 能 获取 任意 一 种 拥有 ODBC 驱 动 的 数据 库 ， 其 实 几乎 就 是 市 面 上 的 所 有 数据 库 ， 如 图 12-13 所 示 。 
假设 已 经 在 Windows 下 安装 了 MySQL， 并 通过 ODBC 数 据 源 管理 器 配置 好 MySQL 的 ODBC 驱 动 ， 如 图 12-14 所 示 。 


在 R 的 控制 台 用 RODBC 包 的 odbcConnect () 函数 连接 数据 库 。 


Project Toolts Settings Help 
你 / GG ] 
执行 新 建 打开 保存 


Dats | Explore | Test | Transform | Custer | Associate | Mode | Evaluate | Log 


RR Data Miner - [Rattle (weather.arff)] 
《y Rattie J000 4.1.0 togqaware. Com. 


Connect R 


Source: ® Spreadsheet © ARF 图 :ODBC: © R Dataset © RData Fle © Library © Corpus © Scnpt 


| DsN: | | Table: INotablesfound. [we|Row Limit: |0 昌国 Believe Num Rows 
ose 二 一 


| 


: 1 Target Data Type 
© nput G gnore Weight Calculator: | | | © Auto © Categoric @ Numeric © OX ] 


图 12-13 ”通过 ODBC 连 据 库 数 据 导 入 数据 


MySOQL ConnectorODBKC Data Source Configuration E> 


i 


MuSOQL 
Connector/OQDBC 


Connecton Parameters 


Data Source Name: ids_user_action 


Description: database 


Test Result 
TCPAP Server: 


Named Pipe: 
User: 
Password: 


Database: 


ox | cre | rep 


图 12-14 ”通过 ODBC 数 据 源 管理 器 安装 ODBC 了 驱动 


> library (RODBC) 
> odbcConnect ("ids user action","Daniel .xie", "xieliedlan") 
RODBC Connection 1 
Details: 
Case=tolower 
DSN=ids user action 
UID=Daniel .xie 
PWD==*** 业 米 类 类 


接 下 来 ， 在 Rattle 的 DSN 中 输入 连接 的 数据 库 名 ， 就 可 以 在 Table 显 示 ids_user_action 库 中 的 所 有 数据 表 ， 如 图 12-15 所 示 。 
如 果 想 导入 ad_rpt_adplat_trans 的 数据 ， 只 需要 选中 此 表 ， 然 后 单 击 执行 按钮 ， 即 可 将 该 表 导 入 Rattle 中 ， 如 图 12-16 所 示 。 
Source: © Spreadsheet © ARFF @®@ ODBC © R Dataset © RData Fle © Lbrary © Corpus © Scnpt 


DsN| user_action | Tabe: Iw | Row Limit: |0 i Wn Hine 


ad_rpt_adplat act 


partition |70/15/15 | 
ad rpt_ adplat trans 


1 . @! 可 ad_rpt_adplat trans_price rTarget Data Type - 
nPU gnore @, A\ :A :A 
ad_rpt_adplat trans tmp ® Auto © Categonc © Numenc © XX 


Welcome to Rattle | ad_rpt_cps_stat 


Rattle is a free ara _rpt trans_ user or Data Minina developed uvsing R. R is a free software 


图 12-15 ”在 Rattle 中 查看 ids_user action 数 据 库 中 的 数据 表 


和 | 虽 四 加 | 目 4 0 | 
执行 | 新 建 ”打开 保存 | Report Export 停止 退出 


Dats | Explore | Test | Transform | Custer | Associate | Mode | Evaluate | Log 


Source: ® Spreadsheet © ARFF ©® IODBC © RDataset © RData Fle © Lbrary © Corpus © Scnpt 


DSN: juser_action Table: | ad_rpt_adplat trans i ROW Limit: 0 9 网 Believe Num Rows 
加 partition |70/15/15 42 9 


: 1 Target Data Type 
© nput © gnore Weight Calculator: ] 图 Auto © Categonc © Numenc © OX 


No. Variable Data Type Input 


: 


Comment 
dtstatdate Date © Unique: 188 
consumer_key Categoric 图 


mober Numeric 图 


Unique: 37 
Unique: 223 


clickuser Numeric Unique: 1613 Missing: 1126 


transuser Numeric Unique: 1196 Missing: 981 


callbackuser Numeric 


© ©©@@ge@DeQe 


Unique: 638 Missing: 4987 


图 12-16 ”导入 ad_rtpt_adplat_trans 表 的 数据 
12.3.4 R Dataset 一 一 导入 其 他 数据 源 


前 面 介绍 了 如 何 导入 文本 文件 、ARFF 文 件 、 数 据 库 的 数据 ， 然 而 R 支 持 从 更 多 的 数据 源 导入 数据 。 例 如 ， 可 以 从 剪贴 板 、 其 他 专业 的 数据 挖 扬 工 具 (SPSS、SAS) 等 导入 数据 ， 接 下 来 演示 如 何 将 R 当 
前 环境 中 的 数据 对 象 导入 Rattle 中 。 


1. 从 蔓 贴 板 读 取 数 据 
本 地 有 一 份 关于 用 户 活跃 情况 的 数据 ， 如 图 12-17 所 示 。 
通过 read.table (“clipboard”，header=T) 命令 将 剪贴 板 的 数据 导入 R， 并 保存 到 数据 对 象 actionuser 中 。 


> actionuser <- read.table ("clipboard",header = 工 ) 
> qim(actionuser) 

[iy 19 了 
> head (actionuser) 用 户 iqd 是 否 付 费 总 登录 天 数 总 登录 次 数 日 均 登 录 次 数 工作 日 登录 次 数 周 末 登 录 次 数 
1 14581052 了 工 50 0 

2 30956813 
3 31212114 
4 37557610 
5 40446697 
6 44095085 


2 
2 


OCOD 
CnN CO OU 情 
OO 


0 
0 
2 
1 2 
2 0 


下 二 可 


jeri 重 
La 


局 


818 1 EE 本 本 


一 一 


图 12-17 选中 数据 并 复制 到 剪贴 板 
接 下 来 ， 在 R Dataset 的 Data Name 中 选择 数据 对 象 actionuser， 如 图 12-18 所 示 。 
单 击 执行 按钮 后 ， 可 以 将 actionuser 数 据 导入 Rattle 中 ， 可 通过 View 按 钮 查看 数据 。 
2. 加 载 SPSS 数 据 集 


利用 foreign 扩 展 包 的 read.spss 遂 数 可 以 将 SPSS 数 据 集 读 入 R 中 。 假 如 桌面 有 一 份 关于 居民 储蓄 调查 的 数据 ， 先 将 数据 读 入 R 中 。 


library (foreign) 
mydataset <- read.spss("C:\\Users\\Think\\Desktop\\ 居 民 储 蔓 调 查 数 据 .sav") 
mydataset <- as.data.frame (mydataset) 


和 | DD 已 问 
执行 


es | 
ee 


Source: ® Spreadsheet © ARFF © ODBC ® R Dataset © RData File © Lbrary © Corpus © Scnpt 


Target Data Type 
© Auto © Categonc © Numenc © xooo | 


图 12-18 ”在 Rattle 中 选择 R Dataset 


然后 在 R Dataset 的 Data Name 中 选择 数据 对 象 mydataset， 将 数据 读 入 Rattle 中 ， 如 图 12-19 所 示 。 


Source: ® Spreadsheet © ARFF © ODBC 图 RDataset © RData Fle © Lbrary © Corpus © Scnpt 


Data Name mydataset 四 


Partition |70/15/15 | [seed:| 142 有 目 [view |Edit 


kr Data Type- 


Input lgnore weoht Cakculator: | © Auto © Categoric © Numeric © OX 


Comment 
Unique: 2 


No. Variable Data Type Input OX 
Categornic 国 
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图 12-19 ”将 居民 储 苏 调 查 数 据 导 入 Rattle 中 


单 击 View 查 看 导入 的 居民 储蓄 调查 数据 ， 如 图 12-20 所 示 。 


12.3.5 ”导入 RData File 数 据 集 


利用 RData File 选 项 可 以 将 二 进 制 的 数据 (通常 是 RData File 的 扩展 ) 直接 读 入 Rattle 中 ， 这 些 文件 通常 包含 多 个 数据 集 。 
假如 桌面 有 一 个 user.RData 数 据 ， 里 面包 括 不 同 平台 的 用 户 信息 ， 先 在 Filename 中 选择 user.RData， 然 后 可 以 选择 里 面包 含 的 数据 表 ， 如 图 12-21 所 示 。 


例如 ， 选 中 android 表 ， 查 看 安 卓 用 户 信息 ， 单 击 View 查 看 导入 的 数据 ， 如 图 12-22 所 示 。 
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图 12-20 ” 单 击 View 查 看 导入 的 居民 储蓄 调查 数据 
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图 12-21 ”从 RData file 选 择 数据 表 
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图 12-22 ”时 入 并 查看 安 卓 平台 用 户 信息 


12.3.6 ”导入 Library 数 据 


几乎 每 一 个 R 包 都 提供 了 一 些 示 例 数据 集 ， 用 于 演示 功能 


& | 0 BB ee @ | 
执行 。 新 建 ”打开 ”保存 停止 ”退出 


oo [ID 


。 例 如 ，Rattle 包 自 带 了 weather、dvdtrans 和 audit 数 据 集 


ne 


Source: © Spreadsheet © ARFF © ODBC © RDataset © RData File © Corpus © Script 


Data Name: acme:boot:Monthly Excess Returns 日 


‘gleissberg.table (gleissberg.table):pastecs:Table of probabilities 二 
Partition 

.HedgeFundl (HedgeFund):fBasics:fBsiscs Data Sets 

,HedgeFund2 (HedgeFund):fBasics:fBsiscs Data Sets 


@ Input 
aami3a:dtw:ANSI/AAMI EC13 Test Waveforms, 3a and 3b D 


Type 


Categoric @ Numenc © OX ] 


， 通 过 Library 选 项 可 以 很 轻松 地 把 这 些 数据 集 导入 Rattle 中 ， 如 图 12-23 所 示 。 


No. Variablt aami3b:dtw:ANSI/AAMI EC13 Test Waveforms, 3a and 3b 
1 month] abbey:MASS:Determinations of Nickel Content 
2 market abc:HH:Datasets for Statistical Analysis and Data Display, Heiber 
3 acme | ability.cov:datasets:Ability and Intelligence Tests 
ability:psych:16 ability rems scored as correct or incorrect. 
abrasion:HH:Datasets for Statistical Analysis and Data Display, H 
absorp (tecaton:caretFat Water and Protein Content of Meat Se 
acacia:HH:Datasets for Statistical Analysis and Data Display, Heit 
accdeaths:MASS:Accidental Deaths in the US 1973-1978 
acldity:mclustAcidity data 
图 12-23 ”可 选择 已 安装 包 的 数据 


例如 ， 需 导入 boot 扩 展 包 中 的 acme 数 据 集 ， 选 中 该 数据 集 后 单 击 按钮 执行 ， 结 果 如 图 12-24 所 示 。 
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图 12-24 导入 boot 包 中 的 acme 数 据 集 


12.4 数据 探索 


Explores 标 签 主要 用 于 数据 探索 ， 其 界面 如 图 12-25 所 示 。 
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Project Tooks Settngs Help @ fatte O00 4.1.0 togaware.com 
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执行 Connect R 
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Report Export 
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图 12-25 ”Rattle 的 Explore 界 面 
Explore 界 面 主要 能 根据 数据 集 输出 以 下 信息 : 数据 总 体 概况 (Summary) 、 数 据 分 布 情况 (Distributions) 、 数 据 的 相关 系数 矩 阵 (Correlation) 、 数 据 主 成 分 分 析 (Principal Components) 以 
及 各 变量 之 间 的 交互 作用 (Interactive) 。 


12.4.1 数据 总 体 概况 


从 数据 总 体 概况 (Summary) 开始 我 们 的 数据 探索 。 虽 然 一 图 胜 干 言 ， 但 是 数据 总 体 概况 在 我 们 理解 数据 时 扔 扮演 着 重要 的 角色 。 
1. 基 本 概要 


利用 基础 base 包 中 的 sumarry () 函数 来 获取 摘 述 统计 量 。summary () 函数 对 数值 型 变量 提供 了 最 小 值 、 第 一 四 分 位 数 、 中 位 数 、 均 值 、 第 三 四 分 位 数 和 最 大 值 ， 对 因子 型 或 逻辑 型 变量 提供 了 频数 
统计 。 


对 rattle 包 中 自 带 的 weather 数 据 集 示 ， 结 果 如 图 12-26 所 示 。 


从 结果 可 知 ，Temp9am (在 9 点 温度 ) 的 最 小 值 是 0.10， 第 一 四 分 位 数 是 7.20， 中 位 数 是 12.45， 均 值 是 12.16， 第 三 四 分 位 数 是 16.93， 最 大 值 是 24.70; RainTomorrow (明天 是 否 下 雨 ) 有 215 天 是 
青天 (No) ，41 天 是 雨天 (Yes) 。 


2. 更 详细 的 概要 
利用 Hmisc 包 中 的 describe () 函数 返回 变量 和 观测 的 数量 、 缺 失 值 和 唯一 值 的 数目 、 平 均值 、 分 位 数 ， 以 及 5 个 最 大 的 值 和 5 个 最 小 的 值 ， 如 图 12-27 所 示 。 
由 图 12-27 可 知 ， 训 | 练 数据 集 共有 256 条 记录 、22 个 变量 。 其 中 MinTemp (最 小 温度 ) 共有 256 条 记录 ， 没 有 缺失 值 ， 唯 一 值 数 目 是 154， 均 值 是 7.011， 接 下 来 是 各 分 位 数值 以 及 5 个 最 小 值 和 最 大 值 。 


如 果 是 因子 型 变量 ， 则 返回 的 是 观测 的 数目 、 缺 失 值 和 因子 数 ， 且 计算 各 因子 的 数目 及 占 比 。 如 RainTomorrow 变 量 的 结果 如 下 。 
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图 12-26 ”利用 base 包 的 summaty 函 数 对 数据 进行 描述 性 统计 分 析 
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图 12-27 ”利用 Hmisc 包 的 desctibe 有 函数 对 数据 进行 描述 性 统计 分 析 


RainTomorrow 
n missing unique 
256 0 2 


No (215, 84%), Yes (41, 16%) 


RainTomorrow 变 量 共 有 256 条 记录 ， 没 有 缺失 值 ， 有 两 个 因子 ， 分 别 是 No 和 Yes， 其 中 No 的 数目 是 215， 占 总 记录 数 的 84%，Yes 的 数目 是 41， 占 总 记录 数 的 16%。 


3. 数 值 型 变量 更 详细 概要 


fBasics 包 中 的 basicsstats () 函数 对 数值 型 变量 提供 了 更 详细 的 描述 性 统计 ， 包 括 以 下 统计 指标 : 记录 数 、 缺 失 值 个 数 、 最 小 值 、 最 大 值 、 第 一 四 分 位 数 、 第 三 四 分 位 数 、 均 值 、 中 位 数 、 求 和 、 均 值 
标准 误 、 均 值 95% 置 信 区 间 的 上 下 限 、 方 差 、 偏 度 和 峰 度 。MinTemp 变 量 的 统计 结果 如 图 12-28 所 示 。 
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Basic statistics for each numeric variable of the dataset. 


图 12-28 ”利用 绍 asics 包 的 basicStats 有 函数 对 数值 型 变量 进行 详细 描述 统计 


除了 以 上 3 种 常用 的 数据 概要 统计 方法 外 ， 还 有 Kurtosis ( 偏 度 ) 、Skewness ( 峰 度 ) 、ShowMissing (显示 缺失 值 ) 和 Cross Tab (交叉 表 ) ， 如 图 12-29 所 示 ， 请 读者 自行 研究 。 
12.4.2 ”数据 分 布 探索 
利用 Rattle 的 Distributions 选 项 ， 可 以 用 可 视 化 的 方式 给 出 各 个 变量 的 分 布 特征 。 可 以 勾 选 相应 的 图 形 选 项 ， 单 击 执行 按钮 绘图 ， 如 图 12-30 所 示 。 
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图 12-29 ”数据 概要 的 其 他 统计 方法 
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图 12-30 ”Distributions 选 项 
对 于 数值 型 变量 ， 可 以 绘制 箱 线 图 、 直 方 图 、 累 积分 布 图 、benford 图 和 散 点 图 和 矩阵， 对 于 类 别 变量 ， 可 以 绘制 柱状 图 、 点 图 、 马 赛 克 图 和 散 点 图 矩阵。 
1. 数 值 型 变量 可 视 化 
Rattle 绘 制 的 箱 线 图 比 R 基 础 包 中 绘制 的 普通 箱 线 图 多 了 一 个 表示 数据 均值 的 星 号 ， 对 比 中 位 数 和 均值 ， 可 以 得 知 数据 的 偏 态 情况 。 
Rattle 绘 制 直方 图 的 步骤 为 : 首先 是 通过 x 轴 将 值 域 分 割 为 一 定数 量 的 组 ， 在 y 轴 上 显示 相应 值 的 频数 ， 展 现 连 续 型 变量 分 布 的 直方 图 ， 然 后 在 直方 图 上 蔷 加 核 密 度 图 和 轴 须 图 。 
累积 分 布 图 是 观察 数据 分 布 情况 的 另 一 种 较 常 用 的 图 形 类 型 。 该 图 形 中 每 个 点 (x，y) 的 含义 为 : 共有 y (百分数 ) 的 数据 小 于 或 等 于 该 x 值 ， 因 此 ， 数据 中 x 最 大 值 对 应 的 y 值 为 1， 即 100%。 
benford 图 来 自 Benford 法 则 ， 给 出 数字 首位 数 1~9 在 这 些 数 字 中 的 经 验 分 布 (近似 规律 ) 。 


散 点 图 和 矩阵 是 绘制 各 变量 间 的 散 点 图 示 ，Rattle 利 用 Ggally 包 的 ggpairs 函 数 实现 。 


利用 weather 数 据 集 ， 以 RainTomorrow 为 分 组 变量 ， 绘 制 MinTemp 变 量 的 箱 线 图 、 直 方 图 、 累 积分 布 图 和 benford 图 ， 如 图 12-31 与 图 12-32 所 示 。 
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图 12-31 按照 RainTomottow 分 组 变量 绘制 图 形 
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图 12-32 ”Rattle 对 数值 型 变量 数据 可 视 化 


箱 线 图 ( 见 图 12-32) 的 中 间 横 线 表示 中 位 数 ，* 表 示 均 值 ， 从 图 12-31 中 可 以 看 出 ， 当 RainTomorrow 为 No 时 ,均值 大 于 中 位 数 ， 说 明 数 据 处 于 正 偏 态 分 布 ( 右 偏 分 布 ) ， 当 RainTomorrow 为 Yes 


时 ,均值 小 于 中 位 数 ， 说 明 数 据 处 于 负 偏 态 分 布 ( 左 偏 分 布 ) 。 


直方 图 ( 见 图 12-32) 的 柱状 图 表示 将 变量 MinTemp 分 组 后 ， 在 y 轴 显示 相应 值 的 频数 ， 三 条 曲线 表示 变量 MinTemp 按 照 分 组 变量 RainTomorrow 画 出 的 核 密度 图 ， 可 知 当 RainTomorrow 为 No 时 ， 


处 于 右 偏 ， 当 RainTomorrow 为 Yes 时 ， 处 于 左 偏 ， 与 箱 线 图 得 出 的 结论 一 致 。 


在 累积 分 布 图 中 ， 当 RainTomorrow 为 Yes 的 曲线 低 于 为 ALL、NO 的 曲线 时 ， 说 明 为 Yes 的 MinTemp 数 据 大 于 为 NO 的 数据 。 


如 果 想 利用 rattle 绘 制 各 变量 间 的 相关 系数 图 ， 只 需要 选中 变量 后 面 的 Pairs 即 可 。 比 如 想 查看 变量 MinTemp、MaxTemp 和 Rainfall 这 三 个 变量 两 两 之 间 的 散 点 图 矩阵， 操作 和 结果 如 图 12-33 所 示 。 
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图 12-33 ”绘制 各 变量 间 的 相关 系数 图 
由 图 12-33 可 知 ， 左 下 方 是 变量 间 的 散 点 图 ， 右 上 方 是 变量 间 的 相关 系数 ，MinTemp 和 MaxTemp 变 量 间 的 相关 系数 是 0.763， 具 有 强 相关 性 。 
2. 类 别 变量 可 视 化 
柱状 图 通过 竖立 的 柱子 展示 类 别 变量 的 分 布 (频数 ) 。 
点 图 提供 了 在 简单 水 平 刻度 上 绘制 大 量 有 标签 值 的 方法 。 


马赛 克 图 是 表现 多 维 列 联 表 数据 的 一 个 工具 。 它 的 表现 形式 为 与 频数 成 比例 的 矩形 块 ， 整 幅 图 形 看 起 来 就 像 是 若干 块 马赛 克 放 置 在 平面 上 上。 马赛 克 图 背后 的 统计 理论 是 对 数 线性 模型 (log-linear 
model) 。Rattle 中 的 马赛 克 图 是 某 个 属性 变量 各 水 平 关于 另 一 个 变量 (一 般 是 目标 变量 ) 的 图 形 。 


利用 weather 数 据 集 ， 以 RainTomorrow 为 目标 变量 ， 画 出 分 类 变量 WindGustDir 的 柱状 图 、 点 图 和 马赛 克 图 ， 如 图 12-34 所 示 。 


从 三 种 图 形 都 得 知 ， 类 别 变量 WindGustDir 的 各 方位 晴天 的 频数 均 高 于 雨天 。 


12.4.3 ”相关 性 


利用 Rattle 的 Correlation 选 项 ， 计 算数 值 变 量 间 的 相关 系数 ， 并 对 结果 进行 可 视 化 展示 。 


计算 相关 系数 采用 Pearson、Kendall、Spearman 三 种 方法 ， 默 认 是 Pearson， 如 图 12-35 所 示 。 


Distribution of WindGustDir (sample) 
by RainTomorrow 


10 20 30 40 50 60 


0 


SW NNE WSVW 


上 


WindGustDir 
Rattle 2016- 二 月 -01 18:20:43 Think 


Distribution of WindGustDir (sample) Mosaic of WindGustDir (sample) 
by RainTomorrow Bd RainTomorrow 


ql 


20 30 WindGustDir 
Rattle 2016- 二 月 -01 18:20:43 Think 


ESE W SSESSWSWN 


三 
三 
三 


WindGustDir 
mnz 
所 = 中 疡 
RainTomorrow 


Frequency 
Rattle 2016- 二 月 -01 18:20:43 Think 


图 12-34 ”Rattle 对 分 类 变量 的 数据 可 视 化 
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图 12-35 相关 系数 的 计算 方式 
计算 weather 数 据 集中 数值 型 变量 的 相关 系数 ， 结 果 如 图 12-36 所 示 。 
Pressure9am 与 Pressure3pm 之 间 的 相关 系数 是 0.96789， 具 有 强 的 正 相 关 性 。Rattle 计 算 相关 系数 的 同时 输出 相关 系数 图 ， 如 图 12-37 所 示 。 


在 图 12-36 中 ， 红 色 表 示 负 相关 ， 蓝 色 为 正 相 关 ， 颜 色 越 浅 相关 系数 (绝对 值 ) 越 小 ， 椭 圆 越 扁 ， 相 关系 数 (绝对 值 越 大 ) 。 变 量 
的 正 相关 性 。 


Pressure9am 与 Pressure3pm 交 又 的 椭圆 蓝 色 很 深 ,说 明 两 者 具有 强 


这 个 选项 还 可 以 探索 缺失 值 的 相关 性 。 
数据 集 当中 常 有 这 样 的 情况 : 一 个 在 某 个 
的 联系 ， 如 图 12-38 所 示 。 


变量 上 有 缺失 值 的 观测 在 其 他 变量 上 也 很 可 能 有 缺失 值 。 选 择 ExploreMissing 并 执行 后 ， 会 输出 相关 系数 德 阵 ， 这 里 的 相关 性 表示 两 个 变量 在 缺失 值 的 数量 上 


Hierarchical 选 框 用 于 计算 层次 相关 性 ， 输 出 一 个 可 视 化 结果 ， 如 图 12-39 所 示 。 


这 个 图 形 就 是 使 用 变量 间 的 相关 性 按照 层次 聚 类 法 (系统 聚 类 法 ) 来 对 变量 进行 分 类 ， 聚 类 的 距离 是 变量 间 的 相关 性 。 从 聚 类 结果 可 知 ， 强 正 相 关 的 变量 Pressure9am 与 Pressure3pm 被 聚 在 一 类 。 


RR Data Miner - [Rattle (weather.csv)] 四 
Project Tools Settngs Help 

2 G 巴 
执行 新 建 打开 Report Export 


一 Explore | Test | Transfomm | Ciuster | Assocate | Mode | Euauate| Log 


© Summary © Distnbutions 


停止 退出 


Type: 图 Correlation 周 pnnapal Components ©® Interactve 


Ordered Explore Missing Hierarchical Method: pearson 加 


Correlation summary using the 'Pearson' covariance. 


Note that only correlations between numeric variables are reported. 


Pressure3pm Pressure9am Humidity9am WindSpeed3pm Humidity3pm 


Pressure3pm Ns 
Pressure9am 时 
Humidity9am 0. 
.33522660 


WindSpeed3pm 
Humidity3pm 


Sunshine 
Cloud3pm 


WindSpeed9am 


Rainfall 


WindGustSpeed 


Cloud93am 


Evaporation 


Temp3pm 
MaxTemp 
Temp9am 
MinTemp 


00000000 
96897642 
15212768 


.01580015 
.06813014 
07554600 
.29297114 
.23702286 
.51159855 
.12196717 
.42083515 
.34293423 
.37424892 
.50426161 
.52804603 


.96897642 
.O00000000 
.15246484 
.37137298 
.09012507 
.01836370 
.07673340 
.40059684 
.31098103 
.53119422 
-3232691 
.40044671 
.24726344 
.28151629 
.46699389 
.52592375 


.1521277 
.1524648 
.0000000 
-3443251 
.4955236 
.4682391 
.2781987 
.3403412 
.1930967 
.4027873 
.3898705 
.4513420 
.3230771 
.3272456 
.4187603 
.1978675 


-0. 
.371372978 
.344325106 
.000000000 
00355323 10 
.125035331 
.070776854 
.491307778 
.045300192 
.657349969 
.060765345 
.057763791 
.165244193 
.152145582 
.005536074 
.047049560 


335226602 


图 12-36 ” weather 数值 变量 的 相关 系数 
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图 12-38 缺失 值 相关 性 可 视 化 


12.4.4 主 成 分 


Principal Components 选 项 提供 了 主 成 分 分 析 来 探索 数据 。 


通常 主 成 分 分 析 作 为 一 种 数据 降 维 的 方法 。 在 数据 探索 当中 ， 使 用 主 成 分 可 以 发 现 数据 集中 用 来 解释 样本 方差 的 重要 变量 。 样 本 的 各 个 主 成 分 就 是 用 来 摘 述 数据 最 大 方差 的 互 不 相关 的 原始 变量 的 线性 


Rattle 计 算 主 成 分 有 两 种 方法 ， 一 种 是 计算 样本 协 方差 矩阵 的 特征 值 和 特征 向 量 (Eigen) 。 另 一 种 方法 是 对 数据 矩阵 进行 奇异 值 分 解 (SVD) 。 在 SVD 方 法 中 ， 结 果 给 出 标准 差 、 主 成 分 系数 和 贡献 
率 、 累 计 贡 献 率 。 在 Eigen 方 法 中 ， 结 果 只 给 出 标准 差 和 贡献 率 、 累 计 贡 献 率 。 两 种 计算 的 结果 是 有 差异 的 ， 但 两 种 结果 都 会 画 出 碎 石 图 和 biplot 图 。 


下 面 以 洛杉矶 街区 数据 (LA.Neighborhoods.csv) 为 例 ， 使 用 SVD 方 法 计算 主 成 分 ， 结 果 如 图 12-40 所 示 。 
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图 12-39 ”变量 间 的 相关 性 层次 聚 类 
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a) 碎 石 图 b) biplot 图 
图 12-40 碎 石 图 和 biplot 图 


碎 石 图 ( 见 图 12-40a) 用 来 表示 各 个 主 成 分 的 相对 重要 程度 ， 可 以 作为 选择 主 成 分 的 一 种 直观 依据 。 可 以 看 出 ， 第 一 主 成 分 的 贡献 率 较 大 ， 而 其 他 主 成 分 的 贡献 率 都 不 那么 大 ， 一 直到 第 四 主 成 分 时 ， 
累积 贡献 率 才 超 过 74%。 


biplot 图 ( 见 图 12-40b) 给 出 了 样本 点 在 第 一 主 成 分 和 第 二 主 成 分 坐标 系 下 的 位 置 〈 即 主 成 分 得 分 ) ， 以 及 这 些 样本 点 在 原始 变量 坐标 系 中 的 相对 位 置 。 图 中 红色 箭头 即 表示 原始 变量 坐标 系 ， 原 始 变 
量 以 红色 标 出 ， 黑 色 为 样本 点 。 


12.4.5 ”交互 图 


可 以 用 latticist 和 GGobi 两 种 方法 ， 以 交互 的 方式 探索 数据 。 其 中 latticist 依 赖 R 的 lattice 作 图 系统 ， 而 GGobi 依 赖 同名 的 软件 。 需 要 安装 GGobi 软 件 ， 以 及 相应 的 rggobi 包 。 
1.latticist 
latticist 包 可 通过 栅栏 图 方式 探索 数据 集 ，CRAN 上 现在 没有 latticist 包 ， 不 过 可 以 在 https://cran.r-project.org/src/contrib/Archive/latticist/ 下 载 历史 版 本 来 进行 本 地 安装 。 


需 对 mtcars 数 据 集 进 行 交互 图 操作 ， 执 行 如 下 代码 ， 生 成 的 界面 如 图 12-41 所 示 。 
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tcars$gear <- factor (mtcars$gear) 
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图 12-41 ”拥有 latticist 函 数 功 能 的 playwith 窗 口 


可 以 通过 下 拉 菜 单 和 按钮 直接 创建 lattice 图 形 。 例 如 ， 想 将 变量 cyl 作 为 分 组 变量 ,可 以 在 Groups/Color 下 拉 菜 单 中 选择 cyl， 如 图 12-42 所 示 。 
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图 12-42 ”选择 cyl 作 为 分 组 变量 
如 果 x 轴 选择 数值 变量 ， 则 得 到 的 是 核 密度 图 ， 如 果 x 轴 选择 分 类 变量 ， 则 得 到 的 是 柱状 图 ， 如 图 12-43、 图 12-44 所 示 。 
如 果 x 轴 选择 分 类 变量 ，y 轴 选择 数值 变量 ， 则 可 以 画 出 箱 线 图 。 如 图 12-45 所 示 。 
除了 可 以 设置 分 组 变量 (Groups/color) 外 ， 还 可 以 设置 条 件 变量 (Conditioning) ， 如 图 12-46 所 示 。 
2.GGobi 
GGobi 有 许多 吸引 眼球 的 优点 ， 包 括 交 互 式 散 点 图 、 柱 状 图 、 平 行 坐标 图 、 时 间 序 列 图 、 散 点 图 矩阵 和 三 维 旋转 的 综合 使 用 。 
对 weather 数 据 集 ， 选 中 交互 选项 的 GGobi， 如 图 12-47 所 示 ， 即 可 调 出 GGobi 界 面 ， 如 图 12-48 所 示 。 
x 轴 选择 MinTemp，y 轴 选择 MaxTemp， 可 以 选中 Cycle， 查 看 不 同 变量 间 的 散 点 图 分 布 情况 。 


可 以 通过 Display 选 择 不 同 的 图 表 类 型 ， 例 如 ， 想 画 平行 图 ， 选 中 New Parallel Coor-dinates Display 后 ， 会 在 新 窗口 中 输出 平行 图 ， 如 图 12-49 所 示 。 


Distribution of mpg 


图 12-43 ”x 轴 选择 mpg 画 出 的 核 客 度 图 


tticist mtcars 9 : 
File View Style Theme Labels Tools Data Options Help 


Distribution of cyl 


Vv. 0.9-44 | Variables on axes: i reset | Groups / Color: Conditioning: 


ET (pairs) | parallel| My= | 
[4] x= |cyl Depth (3D) 
一 Asped| 上 加 Lines. er a ns 


图 12-44 选择 cyl 画 出 的 柱状 图 


图 12-45 x 轴 选 择 cyl、y 轴 选择 wt 的 箱 线 图 


File View Style Theme Labels Tools Data Options Help 


Distribution of cyl by am and gear 


3 [ss 4 [CJ 5 eesg 
SE NR CRGGIESNESSEDEESSS 


-es 


N = 32, 2016-02-02, R 3.1.2 
help v. 0.9-44 : J: superpose 
marginals| splom (pairs)| parallel| y= 
Subset: x= 


ed Pe fe ee Levels:|4 


)rag to zoom (hold Shift to constrain), Click for coordinates, Ctrl-click to zoom out, Right-click for more 


图 12-46 “以 am 为 条 件 ，geat 为 分 组 时 与 cyl 的 栅栏 图 


| Broject Tooks Settings Help 


Type: © Summary © Distnbutions © Correlation © Principal Components 图 Interactive 


图 12-47 在 Rattle 中 调 出 GGobi 界 面 选项 
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eather.csv: 256 x 22 (R data frame weather.csv) DZ 


图 12-48 ”Rattle 调 出 的 GGobi 有 界面 
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|weather.csv: 256 x 22 (R data frame weather.csv) 区 


图 12-49 ” GGobi 画 出 平行 图 


选中 New Scatterplot Matrix 则 绘制 散 点 图 和 矩 阵 ， 如 图 12-50 所 示 。 
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Weather.CSV: 256 x 22 (R data frame weather.csv) | Er¥aporation 


图 12-50 ”GGobi 画 出 散 点 图 矩阵 


12.5 ”数据 建 模 
R 语 言 是 一 款 非 常 优 秀 的 数据 挖掘 工具 ， 能 实现 各 种 数据 挖掘 算法 ， 但 是 这 些 算法 分 散在 各 种 扩展 包 中 。 初 学 者 使 用 Rattle 提 供 的 数据 挖掘 算法 ， 可 以 快速 完成 数据 挖掘 建 模 工作 。 


12.5.1 聚 类 分 析 


聚 类 分 析 是 一 种 原理 简单 、 应 用 广泛 的 数据 挖掘 技术 。 针 对 几 个 特定 的 业务 指标 ， 可 以 将 观测 对 象 的 群体 按照 相似 性 和 相 异 性 划分 为 不 同 的 群 组 。 经 过 划分 后 ， 每 个 群 组 内 部 各 对 象 间 的 相似 度 会 很 
， 而 不 同 群 组 之 间 的 对 象 彼此 间 将 具有 很 高 的 相 异 度 。 


驯 


聚 类 算法 种 类 繁多 ，Rattle 可 以 轻松 实现 最 常用 的 K-Means 聚 类 和 层次 聚 类 (Hiera-chical Cluster) 。K-Means 聚 类 的 基本 原理 是 : 首先 随机 选择 K 个 对 象 ， 并 且 所 选择 的 每 个 对 象 都 代表 一 个 组 的 初 
始 均值 或 初始 组 的 组 中 心 值 ;对 剩余 的 每 个 对 象 ， 根 据 其 余 各 个 组 初始 均值 的 距离 ， 将 它们 分 配给 最 近 的 (最 相似 ) 组 ; 然后 重新 计算 每 个 组 新 的 均值 ; 这 个 过 程 不 断 重 复 ， 直 到 所 有 的 对 象 在 K 组 分 布 中 都 
找到 离 自己 最 近 的 组 。 层 次 聚 类 (Hierachical Cluster) 则 是 依次 让 最 相似 的 数据 对 象 两 两 合并 ， 这 样 不 断 地 合并 ， 最 后 就 形成 了 一 棵 聚 类 树 。 


Rattle 通 过 Cluster 选 项 可 以 建立 K-Means 和 层次 聚 类 ， 黑 认 选 择 K-Menas 聚 类 ， 将 样本 分 成 10 类 。 将 weather 数 据 集 通过 Data 选 项 导入 Rattle 中 ， 然 后 单 击 执行 按钮 建立 K-Means 聚 类 模型 ， 如 图 12- 
51 所 示 。 


Cluster sizes: 
[1] "23 27 28 39 26 34 20 21 18 12" 
Data means: 


MinTemp MaxTemp Rainfall Evaporation Sunshine 
0.47502155 0.43694078 0.05338835 0.29881476 0.59431333 
WindGustSpeed WindSpeed9am WindSpeed3pm Humidity9am Humidity3pm 
0.37421595 0.23947679 0 .36112903 0.56304403 0.38097372 
Pressure9am Pressure3pm Cloud9am Cloud3pm Temp9am 
0.59307110 0.55435794 0.46118952 0.48135081 0.49468922 
Temp3pm 
0.43726454 


Cluster centers: 


图 12-51 建立 K-Means 聚 类 模型 


模型 结果 先 输出 各 类 别 包 含 的 样本 数 (Cluster sizes) 。 


luster sizes: 
1] "23 27 28 39 26 34 20 21 18 12" 


ry 


接着 输出 训练 数据 集 各 变量 的 均值 (Data means) 。 


Data means: 
MinTemp MaxTemp Rainfall Evaporation Sunshine 
0.47502155 0.43694078 0.05338835 0.29881476 0.59431333 
WindGustSpeed WindSpeed9am WindSpeed3pm Humidity9am Humidity3pm 


0.37421595 0.23947679 0.36112903 0.56304403 0.38097372 

Pressure9am Pressure3pm Cloud9am Cloud3pm Temp9am 

0.59307110 0.55435794 0.46118952 0.48135081 0.49468922 
Temp3pm 
0.43726454 


然后 是 各 类 别 均 值 (Cluster centers) : 


Cluster centers: 


MinTemp MaxTemp Rainfall Evaporation Sunshine WindGustSpeed 
1 0.3670760 0.1886703 0.0704415234 0.23978920 0.6400256 0.5929952 
2 0.7233531 0.8392809 0.0238300316 0.54489338 0.8488562 0.3770576 
3 0.6020992 0.5908498 0.0337763012 0.36958874 0.6326155 0.4042659 
4 0.2250930 0.2765300 0.0121248261 0.15773116 0.6975867 0.2631766 
5 0.7288608 0.4402021 0.1753130590 0.39685315 0.1781674 0.4220085 
6 0.3718006 0.2678188 0.0177838577 0.15106952 0.3784602 0.2614379 
7 0.1362595 0.1414234 0.0337209302 0.08409091 0.4257353 0.2986111 
8 0.6581243 0.6039277 0.1675895164 0.43795094 0.6803221 0.4312169 
9 0.4796438 0.5636659 0.0004306632 0.28030303 0.8010621 0.2993827 
10 0.6186387 0.6520681 0.0161498708 0.50000000 0.8425245 0.5937500 


最 后 给 出 各 类 别 的 组 内 平方 和 |。 


Within cluster sum of squares: 
[1] 7.639349 6€6.021378 10.350511 7.617504 11.520617 10.775379 6.036238 
[8] 8.683444 2.625241 2.778257 


单 击 画图 (Plots) 的 Data 按 钮 ， 会 打印 出 前 五 个 数值 变量 的 散 点 图 和 矩阵， 用 不 同 颜色 区 分 不 同类 别 的 样本 ， 如 图 12-52 所 示 。 
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图 12-52 ”打印 出 前 五 个 数值 变量 的 散 点 图 和 矩阵 


单 击 画图 (Plots) 的 Discriminant 按 钮 ， 则 生成 样本 投影 图 ， 并 用 数字 标明 每 个 样本 所 属 类 别 ， 如 图 12-53 所 示 。 


Discriminant Coordinates weather.csv 
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These two components explan $5.5 % of the polnt variability. 


图 12-53 ”样本 投影 图 


将 mtcars 数 据 集 通过 Data 选 项 导入 Rattle 中 ， 选 择 Hierarchical 选 项 ， 单 击 执行 按钮 生成 层次 聚 类 模型 ， 如 图 12-54 所 示 。 


project Tooks Settings Help 
全 | 
22 打开 


Build Options: Distance: |euclidean | -| Agglomerate: jward | -| Number of Processors: | 1 9 


Cluster Options: Number of dusters: | 10 S 


Hierachical Cluster 


Call: 

hclusterpar (Xx = na.omit (crs$dataset[crs$sample, crss$numeric]), method = "euclidean™, link = "w 
Cluster method : ward 

Distance : euclidean 


Number of objects: 22 


Time taken: 0.00 secs 


Rattle timestamp: 2016-11-09 15:10:01 Daniel .xie 


EE 


图 12-54 ”对 mtcars 数 据 集 生成 层次 聚 类 模型 


可 以 单 击 Data Plot 按 钮 生成 数值 变量 的 散 点 图 和 矩阵， 单 击 Disciminant Plot 按 钮 生成 投影 图 ， 也 可 以 单 击 Dendrogram 按 钮 生成 系统 聚 类 树 图 ， 如 图 11-55 所 示 。 
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图 12-55 生成 系统 聚 类 树 图 
12.5.2 关联 规则 


关联 规则 (Association Rule) 是 在 数据 库 和 数据 挖掘 领域 中 广泛 研究 的 一 种 重要 模型 ， 关 联 规则 数据 挖掘 的 主要 目的 是 找 出 数据 集中 的 频繁 模式 ， 即 多 次 重复 出 现 的 模式 和 并 发 天 系 。 
在 众多 的 关联 规则 数据 挖掘 算法 中 ， 最 著名 的 就 是 Apriori 算 法 ， 该 算法 具体 分 为 以 下 两 步 进行 。 

1) 生成 所 有 频繁 项 目 集 。 一 个 频繁 项 目 集 (Frequent Itemset) 是 一 个 支持 度 大 于 最 小 支持 度 阐 值 (min-sup) 的 项 目 集 。 

2) 从 频繁 项 目 集 中 生成 所 有 的 可 信 关 联 规则 。 这 里 的 可 信 关 联 规则 是 指 置 信和 度 大 于 最 小 置信 和 度 辣 值 (min-conf) 的 规则 。 


Rattle 中 的 Associate 选 项 可 以 实现 著名 的 Apriori 算 法 。 默 认 最 小 支持 度 阅 值 (min-sup) 是 0.100， 最 小 置信 和 度 阅 值 (min-conf) 是 0.100， 每 个 项 集 所 含 项 数 的 最 小 值 是 2， 可 以 根据 实际 情况 设置 调 
整 参 数 ， 如 图 12-56 所 示 。 


将 rattle 包 自 带 的 dvdtrans.csv 数 据 集 导 入 Rattle， 记 得 把 ltem 变 量 设置 为 Target， 如 图 12-57 所 示 。 


Project Tools Settings Help @ Raitte O00 4.1.0 togaware.corm 
: | BS a | ®Q 
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图 12-56 ”Rattle 中 的 关联 规则 算法 


Source: ©® Spreadsheet C 〇 ARFF 〇 ODBC O RDOataset 〇 RDataFile © Library O Corpu5 O Script 


Filename: (dvdtrons.csv BB) separator 时 Decimal: 图 2 Header 
DD Partition |70/15/15 Seed:| |42 日 View| |Edit 


Target Data Type 
nput lonore Weight calculator: | | ® Auto O Categoric O Numeric © survival 


No. Variable DataType Input Target Risk ldent Ignore Weight Comment 
Numeric CC ® O O Uniq ue: 10 
Categoric .， 【) () 2 Unique: 10 


图 12-57 导入 dvdtrans 数 据 集 ， 并 将 Item 设 置 为 Target 


参数 按照 默认 设置 ， 对 dvdtrans 数 据 建立 关联 规则 ， 结 果 如 图 12-58 所 示 。 


Datz | Expk Associate 


| Baskets Support: 0.1000 启 Confidence: 0.1000 向 Min Length: |2 S 


: Sort by: |Support 加 


summary of the Transactions: 


Length Class Mode 
10 transactions S54 


Summary of the Apriori Association Rules: 
Number of Rules: 29 


Summary of the Measures of Interestingness: 


support confidence lift 
Min. :0。 Min. :0.2500 Min. - 


0 0 .3333 lst Qu.: 
Median :0 Median :1.0000 Median : 
Mean a1 Mean :0.6954 Mean - 
3rd wa. :0 3rd Qu.:1.0000 3rd Qu.: 
Max . :0 Max . :1.0000 Max. : 


lst Qu.: lst Qu.: 


图 12-58” 勾 选 Baskets 选 项 ， 生 成 关联 规则 
一 共生 成 29 条 规则 ， 同 时 给 出 了 支持 度 、 置 信和 度 和 提升 度 的 最 小 值 、 第 一 四 分 位 数 、 中 位 数 、 均 值 、 第 三 四 分 位 数 和 最 大 值 等 重要 信息 。 
可 以 单 击 Show Rules 按 钮 ， 输 出 生成 的 关联 规则 ， 默 认 是 按照 支持 度 进 行 降序 排序 ， 可 以 在 Sort by 下 拉 列 表 框 中 选择 置信 度 或 提升 度 排序 方式 ， 如 图 12-59 所 示 。 


单 击 Fred Plot 按 钮 ， 可 以 生成 商品 的 交易 频率 图 ， 如 图 12-60 所 示 。 
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图 12-59 ”按照 支持 度 降 序 输出 关联 规则 
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图 12-60 生成 商品 频率 图 
单 击 Plot 按 钮 ， 可 以 调用 arulesViz 包 对 关联 规则 进行 可 视 化 ， 如 图 12-61 所 示 。 


圆 的 大 小 代表 支持 度 ， 颜 色 代表 提升 度 ， 圆 越 大 表示 左 项 与 右 项 间 的 支持 度 越 高 ， 颜 色 越 深 表示 左 项 与 右 项 间 的 提升 度 越 高 。 


12.5.3 ”决策 树 


决策 树 (Decision Tree) 是 一 种 非常 成 熟 、 普 人 遍 采 用 的 数据 挖掘 技术 。 决 策 树 是 一 棵 树 状 结构 ， 它 的 每 一 个 叶 节 点 对 应 一 个 分 类 ， 非 叶 节 点 对 应 某 个 属性 上 的 划分 ， 根 据 样本 在 该 属性 上 的 不 同 取 值 将 
其 划分 成 若干 子 集 。 对 于 非 纯 的 叶 节 点 ， 多 数 类 的 标号 给 出 到 达 这 个 节点 的 样本 所 属 的 类 。 构 建 决策 树 的 核心 问题 是 在 每 一 步 如 何 选择 适当 的 属性 对 样本 进行 拆 分 。 对 一 个 分 类 问题 ， 从 已 知 类 标记 的 训练 
样本 中 学 习 并 构建 出 决策 树 是 一 个 自 上 而 下 、 分 而 治之 的 过 程 。 
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图 12-61 关联 规则 可 视 化 


决策 树 方法 在 分 类 、 预 测 、 规 则 提取 等 领域 有 着 广泛 应 用 。 主 要 原因 在 于 决策 树 的 构造 不 需要 任何 领域 的 知识 ， 很 适合 探索 式 的 知识 发 现 ， 并 且 可 以 处 理 高 维度 的 数据 。 另 外 ， 决 策 树 对 数据 分 布 甚至 
缺失 非常 宽容 ， 不 容易 受到 极 值 的 影响 。 


可 以 通过 Rattle 的 Tree 按钮 实现 决策 树 建 模 ， 它 是 基于 rpart 算 法 包 中 的 rpart 函 数 实现 的 。 利 用 weather 数 据 集 进 行 决策 树 建 模 ， 结 果 如 图 12-62 所 示 。 


在 第 一 部 分 结果 中 ，n = 256 表 明 训 练 集中 数据 为 256 个 样本 数 ，* 号 表明 该 节点 是 叶 节点 ， 该 模型 共有 4 个 叶 节点 。 例 如 : 


2) Pressure3pm>=1011.9 204 16 No (0.92156863 0.07843137) 


上 述 语句 含义 是 : 节点 号 为 2 (node) ， 节 点 分 支 条 件 是 Pressure3pm> =1011.9 (分 裂 值 ) ， 此 时 包含 样本 204， 这 个 节点 分 类 为 No， 有 16 个 样本 被 误 分 类 ， 这 表示 有 92% 的 可 能 明天 不 会 下 雨 。 该 
节点 并 非 叶 节 点 (无 * 号 ) 。 


第 二 部 分 给 出 了 用 于 构建 决策 树 的 命令 。 


Classification tree: 

rpart (formula = RainTomorrow ~ ., data = crs$dataset[crss$train, 
c(crs$input, crss$target)], method = "class", parms = list(split = "information"), 
control = rpart.control (usesurrogate = 0, maxsurrogate = 0)) 


停止 a 


Dats | Explore | Test | Transform | Cluster | Associate| Mode |Evaluate | Log 
Type:[@ Tree © Forest ® Boost @ SVM © Linear ® Neural Net XXXX @@ AI 
Target: RainTomorrow Algorithm: 图 Traditional © Conditional Model Builder: rpart 


Min Sp 谍 : 20 习 Max Depth: 30 中 priors: 回 Incude Missing 
Min Bucket: |7 习 Complexity: 0.0100 向 Loss Matric [Rules| [praw| 


Summary of the Decision Tree model for XXXX (built uvsing 'rpart'): 


Ni™= ZZ36 


node), split, n, loss, vval, (yprob) 
* denotes terminal node 


1) root 256 41 No (0.83984375 0.16015625) 
2) Pressure3pm>=1011.9 204 16 No (0.92156863 0.07843137) 
4) Cloud3pm< 7.5 195 10 No (0.94871795 0.05128205) * 
5) Cloud3pm>=7.5 9 3 Yes (0.33333333 0.66666667) * 
3) Pressure3pm< 1011.9 52 25 No (0.51923077 0.48076923) 
6) Sunshine>=8.85 25 5 No (0.80000000 0.20000000) * 
7) Sunshine< 8.85 27 7 Yes (0.25925926 0.74074074) * 


图 12-62 ”对 weather 训 练 集 数据 建 建立 决策 树 预测 模型 


三 部 分 给 出 了 构建 决策 树 的 分 裂变 量 。 


Variables actually used in tree construction: 
[1] Cloud3pm Pressure3pm Sunshine 


第 四 部 分 给 出 了 根 节点 的 错误 率 。 


Root node error: 41/256 = 0.16016 
第 五 部 分 给 出 了 每 次 分 裂 后 cp 的 综合 详情 。nsplit 是 分 裂 次 数 ，xerror 是 通过 交叉 验证 获得 的 模型 误差 ，xstd 是 模型 误差 的 标准 差 。 


CP nsplit rel error xerror xstqd 
1 0.158537 0 1.00000 1.00000 0.14312 
2 0.073171 2 0.68293 0.80488 0.13077 
3 0.010000 3 “0.60976 0.97561 0.14169 


单 击 Draw 按 钮 ， 可 以 生成 决策 树 图 ， 如 图 12-63 所 示 。 


12.5.4 ”随机 和 森林 


随机 森林 (random forest) 算法 的 实质 是 基于 决策 树 的 分 


随机 森林 在 运算 量 没有 显著 提高 的 前 提 下 提高 


算法 之 一 。 


了 预测 精度 。 随 机 森林 对 多 元 共 线 性 不 敏感 ， 


> 类 器 集成 算法 ， 其 中 每 棵 树 都 是 基于 随机 样本 的 一 个 独立 集合 值 产生 的 。 


结果 对 缺失 数据 和 非 平衡 的 数据 比较 稳健 ， 可 以 很 好 地 预测 多 达 几 干 个 解释 变量 的 作用 ， 被 誉 为 当前 最 好 的 


Decision Tree weather.csv $ RainTomorrow 


:…[yes|:Pressure3pm >= 1012.…| no ]… 
: 
No 


.92 .48 
20% 


:Cloud3pm < 7.5… : Sunshine >= 8.9 : 


图 12-63 ”生成 决策 树 图 


可 以 通过 Rattle 的 Forest 按 钮 实现 随机 森林 建 模 ， 它 是 基于 randomForest 算 法 包 中 的 randomForest 消 数 实 现 的 。 还 是 以 weather 数 据 集 为 例 建立 随机 和 森林， 结果 如 图 12-64 所 示 。 


Rattie ON 4.1.0 togawWare, Com. 


Type: ® Tree 图 Forest @® Boost © SVM © Linear ©® Neural Net XXXX @ Al 
Target: RainTomorrow ” Algorithm: 图 Traditional @ Conditional Model Builder: randomForest 


Number of Trees: 


Number of Variables: |4 Impute Errors | OOB ROC 


Summary of the Random Forest Model 


Number of observations used to build the model: 256 
Missing value imputation is active. 


Call: 
randomForest (formula = RainTomorrow ~ ., 
data = crs$dataset[crs$sample, cl{lcrs$input, crs$target)], 
ntree = 500, mtry = 4, importance = TRUE, replace = FALSE, na.action = randomForest: 


Type of random forest: classification 
Number of trees: 500 
No. of variables tried at each split: 4 


OOB estimate of error rate: 13.28$ 
Confusion matrix: 
No Yes class.error 
No 207 8 0.0372093 
Yes 26 15 0.6341463 


Analysis of the Area Under the Curve (AUC) 


-77 


图 12-64 ”利用 weather 训 练 集 建立 随机 森林 


首先 给 出 的 是 建 模 命 令 。 接 下 来 ， 给 出 一 个 误差 率 的 OOB 估 计 及 基于 OOB 的 分 类 和 矩阵 。OOB 是 英文 out of bag 的 缩写 ， 由 于 每 棵 树 都 由 自助 法 抽样 得 来 ， 抽 样 是 放 回 抽样 ， 这 样 每 次 约 有 1/3 的 数据 没 
有 被 抽 到 ， 这 些 观测 值 数据 被 称 为 O00B 数 据 (口袋 外 面 的 数据 ) 。 由 图 12-64 知 误差 率 的 OOB 估 计 (OOB estimate of error rate) 是 13.28%， 即 它 的 准确 率 是 86.72%， 这 是 一 个 非常 不 错 的 模型 。 在 基 
于 OOB 的 混淆 矩阵 中 ， 行 表示 实际 值 ， 列 表示 预测 值 ， 因 此 ， 有 8 个 预测 值 是 Yes 的 数目 中 ， 实 际 值 是 No。 


可 以 单 击 OOB ROC 按 钮 ， 生 成 OOB ROC 曲 线 ， 如 图 12-65 所 示 。 


OOB ROC Curve Random Forest weather.csV 


一 村 
oo 
o - 
NO 
有 
如 
yy 
T+ 
Cd 
Q 
Q 
=- 0.8 Area Under the Curve (AUC)=0.803 


0:0 0:2 0.4 0:6 0.8 1.0 
False Alarm Rate 


图 12-65 OOB ROC 曲 线 


同时 也 给 出 了 各 变量 重要 性 的 度量 ，MeanDecreaseAccuracy 是 从 精确 度 来 衡量 变量 重要 性 ，MeanDecreaseGinij 则 是 从 Gini 指 数 来 衡量 变量 重要 性 。 默 认 是 按照 精确 度 由 大 到 小 排序 ， 越 靠 前 的 变量 
越 重要 ， 如 下 所 示 。 


Variable Importance 


NO Yes MeanDecreaseAccuracy MeanDecreaseGini 
14.62 pe 


Pressure3pm 12.84 8.74 4.36 
Sunshine IZ2.3L .07 14.21 4.13 
Cloud3pm 12.58 :了 52 13.84 3.18 
WindGustSpeed 9.07 5.81 10.24 2.69 
Pressure9am 94 2.39 8.59 SL Dna 


可 以 通过 Importance 按 钮 ， 对 各 变量 重要 性 进行 可 视 化 ， 如 图 12-66 所 示 。 


Variable Importance Random Forest Weather.CcSV 


Pressure3pm Pressure3pm 
Sunshine Sunshine 
Cloud3pm Cloud3pm 
A WingSR3DEE 人 -TS 
-Pressure9am WindGustDir | 精 哺 转 扩 二 i 
Temp3pm WindDir9am 
ee MT NDE 
Humidity3pm WindDir3pm 
Temp9am MinTemp 
WindGustDir Humidity3pm 一 
WindSpeed9am MaxTemp 
MinTemp Temp9am 
-Cloud9am -WindSpeed3pm |- 
WindSpeed3pm Cvaporation 
WindDir3pmMm | Humidity9am 
ee Humidity9anm | WindSpeed9am | 9 
Evaporation Temp3pm 
RainToday Cloud9am 
WindDir9am Rainfall 
Rainfall RainToday 
0 10 LE 0 1 2 3 4 
MeanDecreaseAccuracy MeanDecreaseGInl 


图 12-66 ”变量 的 相对 重要 性 


单 击 Errors 按 钮 ， 可 以 生成 每 棵 树 的 OOB， 因 变量 为 Yes、No 时 的 误差 率 ， 如 图 12-67 所 示 。 


Error Rates Random Forest weather.csV 


Error 


A 
J" Ni 


和 和 [ Et | , 机 py Py 和 
ie % a i ruy AAAUP As 
& 小 a , ‘ "s 


0 100 200 300 400 300 
trees 


图 12-67 树 的 数量 的 错误 率 


Rattle 还 能 实现 基于 决策 树 的 组 合 方法 (Boost) 、 支 持 向 量 机 (SVM) 、 线 性 回归 (Linear) 、 人 工 神 经 网 络 (Neural Net) 和 生存 分 析 (Survival) ， 感 兴趣 的 读者 可 以 自行 体会 。 


12.6 模型 评估 

对 建 好 的 模型 进行 评估 是 必 不 可 少 的 环节 。Rattle 有 很 多 种 模型 评估 的 方法 ， 包 括 混淆 矩阵 (Error Matrix) 、 模 型 风险 表 (Risk) 、 模 型 ROC 曲 线 (ROC) 、 得 分 表 (Score) 等 。 
12.6.1 “混淆 矩阵 

在 Rattle 中 ，Evaluate 的 默认 评估 标准 就 是 混淆 矩阵 。 单 击 “ 执 行 ” 按 钮 之 后 ， 系 统 会 根据 所 选 数据 集 ， 利 用 选中 的 模型 计算 出 混淆 和 矩 阵 。 


混淆 和 矩阵 主要 用 于 比较 模型 预测 值 同 实际 值 之 间 的 差别 ， 这 有 利于 我 们 根据 实际 需求 调整 相应 的 模型 。 


利用 rattle 包 中 的 审计 数据 集 audit 中 的 70% 数 据 生成 决策 树 模型 ， 并 对 test 数 据 集 建 立 混淆 和 矩阵， 如 图 12-68 所 示 。 


Model: (| Tree | | Boost[ | Forest| | SVM | | Linear[ | Neural Net[ | XXXX1| | KMeans| | HClust 


Data: © Training © Validation [@ Testing le ) Full Enter 加 CSV File Docu,. | 六 | © R Dataset | -| 


Report: 图 Class © probablty Indude: 图 ldentifiers 


Risk Variable: RISK _ Adjustment 


Error matrix for the Decision Tree model on audit.csv [test] (counts): 


Predicted 
Actual 0 1 

0 216 19 

1 33 32 


Error matrix for the Decision Tree model on audit.csv [test] (proportions): 


Predicted 

Actual 0 1 Error 
0 0.72 0.06 0.08 
BE | | 


图 12-68 利用 audit 数 据 建 立 决 策 树 ， 对 test 数 据 集 建 立 混淆 矩阵 


另 一 个 和 矩阵 中 的 数据 则 代表 该 类 别 样 本 占 总 样本 的 比例 。 如 图 12-68 所 示 ， 有 19 个 样本 实际 类 别 是 0， 被 误 预 测 
< 是 0.51。 


混淆 憩 阵 中 的 行 表示 实际 值 ， 列 表示 预测 值 ， 其 中 第 一 个 和 矩 阵 中 的 数据 表示 样本 的 个 数 ， 
为 1， 占 比 是 0.06 (19/ (216+ 19+ 33 + 32) ) ， 误 差 率 是 0.08 (19/ (216+ 19) ) ; 有 33 个 样本 实际 类 别 是 1， 却 被 误 预 测 为 0， 占 比 是 0.11， 误 差 率 
12.6.2 ”风险 图 

模型 风险 图 通常 也 被 称 为 累计 增益 图 ， 主 要 提供 二 分 类 模型 评估 中 的 另 一 种 透视 图 ， 模 型 风险 图 可 以 通过 Evaluate 界 面 中 的 Risk 选 项 直接 生成 。 


续 用 刚才 利用 审计 数据 集 建 立 的 决策 树 模型 为 例 ， 对 测试 集 数 据 建 立 风险 图 ， 如 图 12-69 所 示 。 
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图 12-69 ”利用 audit 数 据 建立 决策 树 ， 对 test 数 据 集 所 建立 的 风险 图 


就 会 有 22000 人 需要 调整 他 们 的 纳税 申报 。 我 们 将 这 个 比率 (22%) 称 为 strike rate。 


12.6.3 ”ROC 曲线 及 相关 曲线 


假设 每 年 将 会 对 100000 人 进行 审计 ， 根 据 风 险 图 
模型 的 ROC 曲 线 也 是 一 种 比较 常见 的 用 于 数据 挖掘 的 模型 评估 图 。 此 外 ， 与 ROC 曲 线 相 类 似 的 曲线 还 有 灵敏 度 与 特异 性 曲线 、 增 益 曲线 、 精 确 度 与 敏感 度 曲线 ， 其 中 ，ROC 曲 线 是 使 用 最 广泛 的 
图 12-70 至 图 12-73 依 次 为 模型 的 ROC 曲 线 、 精 确 度 与 灵敏 度 曲线 、 敏 感度 与 特异 性 曲线 和 增益 曲线 。 


得 分 数据 集 
集 得 分 的 按钮 。 


12.6.4 ”模型 得 分 


在 Evaluate 界 面 中 ，Rattle 还 提供 了 一 个 计算 数据 集 和 
该 按钮 的 主要 作用 是 将 模型 分 析 预 测 结果 保存 为 文件 的 形式 ， 以 便 能 对 模型 结果 进行 更 多 的 分 析 活 动 ， 而 不 仅仅 是 跑 一 遍 数 据 生成 一 个 模型 那么 简单 。 会 根据 我 们 选择 的 数据 利用 模型 进行 预 浊 ， 并 将 


预测 结果 以 CSV 文 件 的 格式 保存 。 
需要 利用 决策 树 生成 的 模型 预测 测试 数据 集 ，Type 选 择 Score，Data 选 择 Testing， 如 图 12-74 所 示 。 


ROC Curve Decision Tree audit.csv [test] TARGET Adjusted 
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图 12-70 ROC 曲线 
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图 12-71 精确 度 与 敏感 度 曲 线 


单 击 “ 执 行 ”按钮 后 ， 弹 出 设置 文件 保存 名 称 和 保存 路 径 的 对 话 框 ， 如 图 12-75 所 示 。 
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图 12-72 灵敏度 与 特异 性 曲线 
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图 12-73 ”增益 曲线 


ype: @ Error Matnx © Risk © Cost Curve © Hand © Lift © ROC © Predsion © Sensitivity © prv Ob| @ Score | 


odel: 贺 Tree | | Boost[ | Forest| | SVYM[ | Linear[ | Neural Net[ | OX[ | KMeans[ | HClust 


Data: © Training © Validatio © Full © Enter © CSVFile | 顶 Docu.. | 如 ©RDataset| |7| 


Risk Variable: RISK_Adjustment Report: 图 Class @ Probability Indude: @ ldentifiers @ All 


图 12.74 ”对 测试 集 数据 计算 得 分 


保存 到 本 地 的 文件 包含 三 列 ， 第 一 列 是 样本 的 ID， 第 二 列 是 因 变量 的 实际 值 ， 第 三 列 是 决策 树 模 型 的 预测 结果 ， 如 图 12-76 所 示 。 


名 称 (N) 
| 保存 于 文件 交 (F]) 国 Docmers 对 


浏览 其 它 文件 夹 {B] 


图 12-75 ”得 分 文件 的 保存 设置 
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图 12-76 ”得 分 文件 的 保存 内 容 


12.7 小 结 
本 章 详细 介绍 了 Rattle 的 安装 及 使 用 方法 ， 数 据 导 入 、 数 据 探 索 、 数 据 建 模 和 模型 评估 在 Rattle 中 的 实现 过 程 。Rattle 的 数据 挖掘 过 程 会 在 Log 标 签 中 记录 下 来 。Log 可 以 给 出 所 进行 的 Rattle 操 作 的 R 代 


码 ， 利 用 Log 标 签 ， 可 以 学 习 R 的 数据 挖掘 过 程 ， 也 可 以 把 记录 以 文本 形式 输出 ， 在 R 平 台中 实现 R 与 Rattle 的 交互 。 通 过 对 本 章 的 学 习 ， 可 以 在 以 后 的 数据 挖掘 过 程 中 采用 适当 的 算法 并 按 所 陈述 的 步骤 综合 
应 用 。 


第 13 章 ”快速 搭建 游戏 数据 分 析 平 台 


shiny 是 R 中 的 一 种 Web 开 发 框架 ， 使 R 的 用 户 不 必 太 了 解 CS9、JS， 只 需要 了 解 一 些 HTML 的 知识 ， 就 可 以 快速 完成 Web 开 发 ， 且 Shiny 包 集成 了 Bootstrap、jQuery、Ajax 等 特性 ， 极 大 解放 了 作为 统 
计 语 言 的 R 的 生产 力 。 使 得 非 传统 程序 员 的 R 用 户 不 必 依赖 于 前 端 、 后 端 工程 师 ， 就 可 以 自己 依照 业务 完成 一 些 简单 的 数据 可 视 化 工作 ， 快 速 验证 想法 的 可 靠 性 。 另 外 有 很 多 扩展 包 可 以 丰富 Shiny 框 架 的 功 
能 ， 例 如 shinydashboard 包 提供 了 BI 框架 ; shinythemes 包 给 出 了 Shiny 应 用 程序 的 常用 风格 主题 ; shinyAce 包 为 Shiny 应 用 程序 开发 者 提供 Ace 代 码 编辑 器 ; shinyjs 包 用 于 在 Shiny 应 用 程序 中 执行 常见 的 
JavaScript 操 作 ; miniUl 包 提供 了 一 个 UI 小 部 件 ， 用 于 在 R 命 令 行 中 集成 交互 式 应 用 程序 。 


13.1 shiny 快 速 入 门 


shiny 是 RStudio 公 司 开发 的 包 ， 可 以 用 R 语 言 轻松 开发 交互 式 Web 应 用 。 它 主要 具有 以 下 特性 。 

. 只 用 几 行 代码 就 可 以 构建 有 用 的 Web 应 用 程序 ， 不 需要 用 JavaSctipt。 

Shiny 应 用 程序 会 自动 刷新 计算 结果 ， 这 与 电子 表格 实时 计算 的 效果 类 似 。 当 用 户 修改 输入 时 ， 输 出 值 自动 更 新 ,而 不 需要 在 浏览 器 中 手动 刷新 。 
. Shiny 用 户 界 面 可 以 用 纯 R 语 言 构建 ， 如 果 想 更 灵活 ， 可 以 直接 用 HTML、CSS 和 JavaSctipt 来 写 。 

. 可 以 在 任何 R 环 境 中 运行 (及 命令 行 、Windows 或 Mac 中 的 Reui、ESS、StatET、RStudio 等 ) 。 

“ 基于 Twitter Bootstrap 的 默认 UI 主题 很 吸引 人 。 

` 高 度 定制 化 的 滑动 条 小 工具 (slider widget) ， 内 置 了 对 动画 的 支持 。 

* 预先 构建 了 输出 小 工具 ， 用 来 展示 图 形 、 表 格 以 及 打印 输出 R 对 象 。 

* 采用 websockets 包 ， 做 到 浏览 器 和 R 之 间 快 速 双 向 通信 。 

* 采用 反应 式 (reactive) 编程 模型 ， 握 弃 了 繁杂 的 事件 处 理 代码 ， 这 样 可 以 将 精力 集中 于 真正 关心 的 代码 上 。 

“ 开发 和 发 布 了 自己 的 Shiny 小 工具 ， 其 他 开发 者 也 可 以 非常 容易 地 将 它 加 到 自己 的 应 用 中 。 

Shiny 应 用 包含 两 个 基本 的 组 成 部 分 : 一 个 是 用 户 界面 脚本 (a user-interface script) ， 另 一 个 是 服务 器 脚本 (a server script) 。 应 用 结构 如 图 13-1 所 示 : 
" 用 户 界面 (UI) 脚本 控制 应 用 的 布局 与 外 表 ， 它 定义 在 一 个 称 作 ui.R 的 源 脚 本 中 。 


. 服务 器 (server) 脚本 包含 构建 应 用 所 需 的 一 些 重 要 指示 ， 它 定义 在 一 个 称 作 server.R 的 源 脚本 中 。 
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My First App 

清二 引 委 址 9 条 全 这 是 我 的 第 一 个 app 应 用 

4 如 全 寺 学习 好 务 的 shy 知己 王后 二 此 营 

9 上 @ 和 内 党 点 和 站 入 利 几 生 各 臣 莹 撒 入 进行 党 了 大 二 

个 SepaLLength SepaiwWidith Petall engih Petal Vijth Species 
| 5 0 | 1 0 0 20 wsa 
2 有 人 ?3 00 1 9 0 0 Ws3 
3 4.0 | 4 的 0 m0 Ws 
. 4 80 $ 40 1. 0 @ 0 woss 
$s 5 0 $80 1_ 0 @ 2 ss 
‘ 5 0 3 1 179 @ 如 ss 


server.R uiR 


图 13-1 shiny 应 用 基本 结构 


可 以 在 一 个 目录 中 保存 一 个 ui.R 文 件 和 server.R 文 件 来 创建 一 个 Shiny 应 用 。 每 一 个 应 用 都 需要 自己 独特 的 存放 位 置 。 运 行 应 用 的 方法 是 在 函数 runApp 中 置 入 目录 名 称 。 例 如 ， 应 用 目录 名 称 为 
myapp， 且 放 在 D 盘 目录 下 ， 那 么 键入 以 下 代码 可 以 执行 应 用 。 


library (shiny) 
runApp ("D: /myapp") 


运行 完成 后 自动 生成 一 个 网 页 展示 结果 。 
也 可 以 将 UI 和 server 的 代码 写 在 一 个 脚本 内 ， 通 过 shinyApp 执 行 该 App。 运 行 以 下 脚本 将 得 到 如 图 13-2 所 示 的 一 个 简单 查看 数据 交互 页 面 。 


# app .R# 


library(shiny) 
ui <- ShinyUI (fluidPage( 
titlePanel (title="My First App"), 
sidebarPanel ( 
numericInput ("n" "请 选择 要 查看 的 数据 行 ", Value = 10) 


) 5 
mainPanel (tableOutput ("view")) 
) ) 
server <- shinyServer (function (input,output,session)f{ 
output$view <- renderTable( 
head (iris, n = inputSn) 


) 


shinyApp (ui = ui, server = server) 


My First App 


Sepal.Length Sepal.Width Petal.Length Petal.Width Species 
请 选择 要 查看 的 数据 行 


3.10 1.40 0.20 setosa 
10 | | | 


1.40 0.20 setosa 


一 


1.30 0.20 setosa 


1.50 0.20 setosa 
1.40 0.20 setosa 


1.70 0.40 setosa 


一 个 


1.40 0.30 setosa 


1.50 0.20 setosa 


一 


1.40 0.20 Setosa 


1.50 0.10 | setosa 


图 13-2 ”利用 shiny 包 搭建 交互 查看 数据 页 面 


Shiny 包 也 内 置 了 11 个 示例 ， 详 细 地 展现 Shiny 的 基本 特性 ， 通 过 学 习 示例 ， 可 以 快速 上 手 。 每 一 个 示例 都 是 一 个 独立 的 应 用 程序 (self-contained Shiny App) 。 可 以 通过 runExample () 查看 。 


Shiny: :runExample () 
Valid examples are "01 hello", "02 text", "03 reactivity", "04 mpg", "05 sliders", "06 tabsets", "07 widgets", "08 html", "09 upload"，"10 download", "11 timer" 


01_hello 示 例 根 据 R 自 带 的 faithful 数 据 集 绘制 一 个 直方 图 ， 并 且 由 可 变数 量 的 bins 控 制 。 用 户 可 以 通过 滑动 条 改变 bins 的 数量 ， 应 用 会 立刻 对 更 改动 作 做 出 响应 。 输 入 runExample ("01 _hello") ， 会 
自动 创建 一 个 本 地 的 web 页 面 ， 如 图 13-3 所 示 。 


在 Hello Shiny 的 示例 中 ，ui.R 和 server.R 的 脚本 如 图 13-4 所 示 。 
Hello Shiny! 


Number of bins: Histogram of x 


团 50 
4D 
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图 13-3 ”Hello Shiny 示 例 


Sever 上 ui.R 


library (shiny) 


# Define UI for application that draws a histooranm 
shinyUI (fluidpage 


# Anplication title 
titlePanel("Helle shiny'™y, 


# Sidebar with a slider input for the number of bins 
SidebarLayout I 
sidebarpanel i 
Sl1iderlnputt(" "bins™, 

Nunmber of bins:™, 
min Ls 
max S50, 
TAaAlue = 30) 


) 


# Show a Plot of 七 he generated distribution 
mainpPanel i 

PlotOutput ("distPlot™) 
) 


) 
)) 
serverR 上 UIR 
ey ... 
library{shinyv) 


# Define server logic reqmuired to draw a histooram 
ShinyServerlitunctionl(linput, outputy 1 


# Expressicon that generates a histogram. The expression is 
# wrapped in a call to renderPlot to indicate that: 


# 1) It is "reactive™" and therefore should be automatically 
大 re-eXecCUted When inputs change 
# 2) Its output type i3 a plot 


outputs$distPlot <- renderPlotit 
互 <— faithful[, 2] # Old Faithful Geyser data 
bins <- sed {min({(x), marx{(x), length.out = inputsbins + 1) 


# draw the histoogram with the specified number of bins 
hist{(s,: breaks = bins, col = darkoqgray', border = "White') 
}) 


}) 


图 13-4 Hello Shiny 的 ui.R 和 server.R 脚 本 
在 Hello shiny 应 用 运行 时 ，R 处 于 繁忙 状态 ， 因 此 不 能 执行 其 他 R 命 令 。 若 是 希望 关闭 应 用 恢复 R， 可 以 单 击 退出 或 者 停止 按钮 (在 Rstudio 控 制 面 板 的 右上 角 ) 。 
现在 读者 已 经 学 会 了 shiny 的 基本 原理 及 如 何 运 行 和 停止 应 用 。 接 下 来 梳理 一 遍 构建 简单 的 Shiny 应 用 程序 的 流程 ， 并 将 文字 、 图 片 ， 以 及 其 他 控件 添加 到 应 用 中 ， 丰 富 应 用 功能 。 


构建 应 用 程序 前 ， 先 创建 一 个 空 文件 来 myapp， 在 这 个 文件 夹 里 创建 新 txt 文 件 ， 并 将 txt 文 件 改 为 ui.R 和 server.R， 如 图 13-5 所 示 。 


组 织 了 包含 到 库 中 Y 共享 > 新 建文 件 夫 


A 


名 称 修改 日 期 


加 serverR 2016/10/5 16:13 
uiR 2016/10/5 16:13 


图 13-5 ”在 myapp 文 件 夹 中 创建 空 的 ui.R 和 servet.R 文 件 
用 Rstudio 打 开 ui.R 和 serverR， 在 两 个 脚本 中 添加 以 下 代码 。 这 些 代码 是 创建 一 个 shiny 应 用 的 最 低 要 求 。 运 行 结果 是 有 一 个 空白 用 户 界 面 的 空 应 用 。 


# ui.R 

Jibrary (shiny) 
shinyUI (fluidPage( 
) ) 


# server.R 
library (shiny) 
shinyServer (function (input,output) { 


}) 


ui.R 脚 本 利用 fluidPage 函 数 来 创建 一 个 自 适应 用 户 浏览 器 窗口 ， 该 窗口 包含 一 个 标题 面板 和 一 个 侧 边 栏 布局 ， 后 者 包括 一 个 侧 边 栏 面板 和 一 个 主 面板 。 在 ui.R 脚 本 中 添加 以 下 脚本 ， 这 些 脚 本 都 放置 在 
fluidPage 浮 数 内 部 。 应 用 如 图 13-6 所 示 。 


shinyUI (fluidPage( 
titlePanel ("My First App"), 
sidebarLayout ( 
sidebarPanel (), 
malinPanel () 


e127.0.0.1:5155 


My FIrst App 


图 13-6 添加 了 标题 面板 、 侧 边栏 面板 和 主 面板 的 应 用 


titlePanel 和 sidebarLayout 为 shiny 应 用 构成 基本 的 布局 ， 不 过 也 可 以 创建 更 多 的 高 级 布局 。 例 如 利用 splitLayout 来 拆 分 布局 ， 用 fluidRow 和 column 来 设置 布局 ， 用 vertical-Layout 创 建 垂 直 布 局 ， 用 
navbarPage 让 应 用 展示 出 导航 栏 布局 等 。 部 分 布局 样式 如 图 13-7 所 示 。 


shinyUllfluidPagel © 127.0.0.1:5155 


verticalLayout!( 
ol connect1 
connect2 
connect2 ， connect3 
"connect3"))) 
shinyUiltfuidpage 人 CDl7001sl55 _ 
tabsetPanel( tab1 tab2 tab3 
tabPanel("tab1","connect1"), 
tabPanel("tab2","connect2"), connect1 


tabPanel("tab3","connect3")))) 


shinyUIl(fluidPagel( connect1 
navlistPanel( 
tabPanel('tab1', connect1'), tab2 
tabPanel( tab2", connect2'), 区 


tabPanel("tab3","connect3")))) 


shinyUl(navbarPagel 
title="Page", 
tabPanel("tab1","connect1"), 
tabPanel("tab2","connect2"), connect1 
tabPanel("tab3","connect3"))) 


Page tab1 tab2 tab3 


shinyUl(fluidPagel 
fluidRow!( 
column(width = 4,"4"), 
column(width = 3,"3")))) 


> 
Co 


图 13-7 不 同 页 面 布局 样式 


读者 可 以 根据 自己 的 需求 选择 不 同 的 页 面 布 局 。 继 续 以 sidebarLayout 的 标准 布局 为 基础 ， 在 现 有 应 用 上 添加 更 多 内 容 。 做 法 仅仅 是 需要 在 *Panel 函 数 中 添加 相关 元 素 。shiny HTML 标 签 中 的 函数 与 常 
见 的 HTML5 标 签 大同 小 异 。 表 13-1 是 shiny 函 数 与 HTML 的 等 价 列举 。 


表 13-1 shiny 函 数 与 HTML 的 等 价 列举 


一 段 文字 
hl 级 别 1 的 标题 
h2 级 别 2 的 标题 
hb3 级 别 3 的 标题 
h4 级 别 4 的 标题 
h5 级 别 5 的 标题 
h6 级 别 6 的 标题 


a <a> 一 个 超 链 接 


如 果 想 在 应 用 中 插入 图 片 ， 存 放 图 片 的 文件 夹 必 须 命 名 为 www， 且 文件 夹 需要 放 在 与 ui.R 和 server.R 相 同 的 路 径 中 ， 应 用 将 会 在 网 络 浏览 器 中 分 享 www 文 件 夹 里 的 图 片 、css、js 等 ， 如 图 13-8 所 示 。 


有 计算 机 ， 软件 (DJ] ， myapp 上 www 


泪 织 ™ 包含 判 库 中 ™ 共有 时 ™ 放映 名 刘 卢 新 建立 


四 下 载 
于 点 面 
通 最 所 访问 的 位 置 
bigorb.pna 


图 13-8 图 片 存放 位 置 


插入 一 个 图 片 的 具体 做 法 是 : img (src= "bigorb.png"，height，width) ，height 和 width 参数 用 来 设置 高 


、 宽 的 像素 值 ， 可 以 利用 a 浮 数 给 图 片 增加 超 链接 。 以 下 代码 实现 在 侧 边 栏 添加 图 片 ， 单 击 
图 片 会 打开 RStudio 官 网 ， 并 在 主 面板 增加 一 些 文字 描述 ， 如 图 13-9 所 示 。 


library (shiny) 
shinyUI (fluidPage( 
titlePanel ("My First App"), 
sidebarLayout ( 
sidebarPanel ( 
a (limg (src="bigorb.png",height=60,width=60), 
href="https://www.rstudio.com/",target="black") )， 
mainPanel ( 
strong (h3 ("这 是 我 的 第 一 个 App 应 用 ", style="color:violetred"))， 
h4 ("如 果 想 学 习 更 多 的 shiny 知 识 "， 
span (a ("请 点 击 此 处 ",href="http://shiny.rstudio.com/tutorial/")))，, 


br (), 
Pp ("我们 将 利用 区 尾 花 数据 集 进行 案例 演示 ") ) ) 


) ) 


接 下 来 学 习 如 何在 应 用 中 添加 控制 部 件 。 控 件 就 是 一 个 用 户 可 以 进行 交互 的 网 络 元 素 ， 提 供 了 一 种 能 向 应 用 发 送信 息 指令 的 途径 。 图 13-10 是 shiny 的 内 置 控 件 。 
常用 控件 函数 如 表 13-2 所 示 。 


My First App 


这 是 我 的 第 一 个 App 应 用 


如 果 想 学 习 更 多 的 shiny 知 识 请 点 击 此 处 


我 们 将 利用 态 尾 社 数 据 集 进行 案例 演示 


图 13-9 ”在 侧 边 栏 增加 图 片 ， 主 面板 添加 文字 


\t ba 
Basic widgets x No OS _ 
C 省 127.0.0.1:4733 三 


eq 


Basic widgets 


Buttons Single checkbox Checkbox group Date input 


Action 加 Choice A Choice 1 2014-01-01 
Choice 2 


moees 


Date range File input Help text Numeric input 


2014-01-24 to 2014-01-24 Choose File | No file chosen Note: help text isn't a true widget, but it 1 
provides an easy way to add text to 
accompany other widgets. 


Radio buttons Select box Sliders Text input 


@ Choice 1 Choice 1 Enter text... 
Choice 2 
Choice 3 


图 13-10 ”shiny 自 带 的 内 置 控件 
表 13-2 ”控件 函数 


万 程 探 件 万 程 控 件 


不 同 控件 的 参数 有 所 不 同 ， 这 完全 取决 于 控件 实现 功能 的 自身 需求 。 但 是 每 一 个 控件 的 前 两 个 参数 都 是 : 
. inputId (控件 名 称 ) : 用 户 看 不 见 控件 名 称 ， 但 是 可 以 利用 控件 名 称 将 控件 值 传递 给 server 端 ， 控 件 名 称 必须 为 字符 囊 类 型 。 
. label (标签 ) : 标签 会 与 控件 一 起 显示 在 UI 端 ， 它 也 必须 是 一 个 字符 事 ， 但 是 可 以 为 空 字符 囊 。 


控件 可 以 添加 在 侧 边 面板 或 主 面板 中 。 现 在 向 myapp 应 用 的 侧 边 栏 增加 一 个 数字 输入 框 和 一 个 单一 复 选 框 控件 。 将 以 下 代码 添加 到 ui.R 脚 本 中 的 sidebarPanel 函 数 内 即 可 。 效 果 如 图 13-11 所 示 。 


numericInput ("n" "请 选择 要 查看 的 数据 行 ", Value = 10,max=150)， 
checkboxInput ("outliers", "显示 异常 点 "FEALSE) ， 


My First App 


请 选择 要 查看 的 数据 行 这 是 我 的 第 一 个 App 应 用 
10 如 果 想 学 习 更 多 的 shiny 知 识 请 点 击 此 处 
回 显示 异常 点 


我 们 将 利用 交尾 花 数据 集 进行 案例 演示 


图 13-11 添加 控件 后 的 myapp 应 用 


最 后 在 应 用 中 建立 响应 式 输出 ， 让 shiny 的 UI 端 和 server 端 连 动 起 来 。 可 以 通过 以 下 两 个 步骤 来 创建 相应 输出 。 


1) 在 ui.R 脚 本 中 使 用 *Output 函 数 来 在 shiny 应 用 中 创建 响应 式 对 象 。 
2) 在 server.R 脚 本 中 使 用 render* 函 数 告诉 shiny 如 何 搭建 对 象 。 
server.R 脚 本 的 基本 任务 是 定义 输入 和 输出 之 间 的 关系 。 脚 本 访问 输入 值 ， 然 后 计算 ， 接 着 向 输出 的 组 件 赋 予 反 应 表达 式 。 表 13-3 是 shiny 常 用 的 一 些 输出 项 。 


表 13-3 shiny 常 用 输出 项 


htmlOutput/uiOutput -个 shiny 对 和 象 或 HTML 
ne 图 像 (保存 为 与 源 文件 的 链接 ) 
tableOutput 数据 框 、 和 矩阵 以 及 其 他 表格 数据 
verbatimTextOutput 任何 打印 输出 


正如 向 用 户 界面 添加 HTML 元 素 和 控件 一 样 ， 可 以 用 类 似 做 法 向 UI 中 添加 输出 。 将 输出 函数 置 入 ui.R 脚 本 中 的 sidebarPane| 或 者 mainPanel 中 。 假 如 想 在 myapp 的 主 面板 中 添加 展示 莺 尾 花 数 据 的 表格 
和 箱 线 图 ， 只 需要 在 mainPanel 函 数 内 添加 以 下 两 行 命令 。 


tableOutput ("mytable"), 
plotOutput ("myplot") 


每 一 个 *Output 函 数 都 需要 一 个 单一 的 字符 串 参 数 ， 这 个 字符 串 是 在 server.R 脚 本 的 output$object 中 创建 的 输出 对 象 名 称 。 


在 server.R 脚 本 中 ，input 对 象 的 组 件 用 来 访问 UI 端 的 输入 ， 并 向 output 对 象 的 组 件 赋值 来 生成 输出 。 利 用 以 下 脚本 创建 mytable 和 myplot 的 R 对 象 ， 运 行 myapp 的 用 户 界面 如 图 13-12 所 示 。 


library (shiny) 
shinyServer (function (input, output) { 
# 向 用 户 界面 输出 Iris 数据 表 ， 根 据 inputSn 输 出 行 数 
output$mytable <- renderTable({ 
head (iris,inputs$n) 
}) 
# 用 户 界 面 输出 箱 线 图 ， 并 根据 jnput$outliers 判 断 是 否 输 出 异常 点 
output$myplot <- renderPlot(f{ 
boxplot (Sepal .Length~Species,data=iris, 
col=rainbow (3),outline = input$outliers) 


My First App 


请 选择 要 查看 的 数据 和 ”这 是 我 的 第 一 个 App 应 用 
自 ”如果 想 学 习 更 多 的 shiny 知 识 请 点 击 此 处 


我 们 将 利用 营 尾 社 数 据 集 进行 案例 演示 
Sepal.Length Sepal.Width Petal.Length Petal.Width 
5.10 3.50 1.40 0.20 
4.90 3.00 1.40 0.20 
4.70 3.20 1.30 0.20 
.60 .10 .50 .20 
-00 -60 .40 .20 


.40 .90 .7 了 0 .40 


setosa versicolor virginica 


图 13-12 ”具有 反应 式 的 myApp 应 用 


调整 输入 的 数值 能 改变 展示 数据 的 行 数 ， 勾 选 显示 异常 点 能 显示 箱 线 图 中 的 异常 点 。 


网 


现在 已 经 学 会 如 何 创建 一 个 shiny 应 用 ， 但 是 怎样 才能 将 自己 的 应 用 分 享 给 其 他 用 户 呢 ? 两 个 基本 的 选择 是 : 


1) 针对 R 用 户 ， 直 接 分 享 R 脚 本 给 用 户 或 将 脚本 上 传 到 GitHub， 用 户 运 行 [unGitHub ("<Your repository name>","<your user name>") 来 运行 你 的 应 用 ， 如 果 希 望 以 匿名 形式 发 布 你 的 在 线 文 
件 ， 可 以 使 用 GitHub 提 供 的 pasteboard 服 务 。 


2) 以 网 页 形式 分 享 自己 的 shiny 应 用 。 这 无 疑 是 分 享 应 用 最 友善 的 途径 。 用 户 可 以 通过 互联 网 打开 浏览 器 对 应 用 进行 操作 。 


Rstudio 提 供 了 三 种 方法 来 共享 你 的 shiny 应 用 : 


Shinyapp.io、 Shiny Server、 Shiny Server Pro。 


Shinyapp.io 是 共享 shiny 应 用 最 简单 的 方法 ， 这 是 RStudio 为 shiny 应 用 提供 的 一 项 托管 服务 。Shinyapp.io 分 为 免费 版 和 收费 版 ， 更 多 信息 详 见 http://www.shinyapps.io/。 


Shiny Server 是 shiny 的 一 个 伙伴 项 目 ， 它 是 免费 的 、 开 源 的 ， 并 且 在 GitHub 上 可 用 。Shiny Server 需 要 在 Linux 服 务 器 上 部 署 ， 利 用 同一 个 Shiny 服 务 器 ， 可 以 托管 多 个 shiny 应 用 ， 并且 可 以 从 防火 墙 
部 署 应 用 程序 。 配 置 Shiny 服 务 器 不 难 ， 请 参阅 https://github.com/rstudio/shiny-server/blob/master/README.md,。 


Shiny Server Pro 是 Rstudio 针 对 Shiny Server 的 付费 专业 版 本 。 其 配置 了 大 多 数 常 见 的 付费 服务 器 程序 ， 如 安全 与 认证 (Security&Authentication) 、 调 整 和 缩放 (Tuning&Scaling) 、 服 务 器 监控 
(Server Monitoring) 。 


欲 了 解 更 多 功能 ， 请 查阅 https://www.rstudio.com/products/shiny/shiny-server/。 


13.2 shinydashboard 包 


shinydashboard 扩 展 包 为 shiny 框 架 提供 了 BI 框架 ,一 个 dashboard 由 三 部 分 组 成 : 标题 栏 、 侧 边栏 、 主 面板 。 通 过 install.packages ("shinydashboard") 安装 该 包 。 执 行 以 下 脚本 可 以 得 到 
shinydashboard 的 基本 框架 。 应 用 如 图 13-13 所 示 。 


# app.R # 

library (shiny) 

library (shinydashboardg) 

ui <- dashboardPage( 
dashboardHeader () ， 
dashboardSidebar ()， 

dashboardBody () 
) 

server <- function(input, output) { } 
shinyApp (ui, server) 


下 面 将 在 应 用 中 添加 性 能 类 似 tabs 的 菜单 项 ， 这 与 shiny 中 的 tabPanels 相 似 ， 单 击 菜单 栏 时 ， 将 在 main body 中 显示 不 同 的 内 容 。 有 具体 步骤 如 下 。 
1) 在 侧 边 栏 dashboardSidebar 的 sidebarMenu 中 添加 menultem， 并 用 tabName 设 置 其 名 称 。 在 sidebarMenu 添 加 以 下 代码 得 到 的 结果 如 图 13-14 所 示 。 


# Sidebar 内 容 

dashboardSidebar( 

sidebarMenu ( 
menuItem("Data", tabName = "data", icon = icon("table")), 
menuItem("Chart", tabName = "chart", icon = icon("line-chart")) 


) ) 


图 13-13 ”shinydashboard 的 基本 框架 


My First App 


I Data 


“Chart 


图 13-14 添加 tab 菜 单项 


menultem 有 一 个 图 标 icon 选 项 ， 由 shiny 的 icon () 函数 创建 (更 多 icon 图 表 请 查阅 http://fontawesome.io/icons/) 。badgeLabel 和 badgeColor 选 项 分 别 是 标记 名 和 标记 颜色 。 menultem 除 了 控 
制 标签 还 可 以 做 其 他 的 事情 ， 比 如 可 以 包含 一 个 外 部 链接 的 内 容 。 如 果 href 提 供 一 个 值 ， 在 默认 情况 下 ， 这 些 外 部 链接 打开 一 个 新 的 浏览 器 标签 或 窗口 。 例 如 ， 增 加 下 面 这 行 代码 可 在 侧 边栏 增加 百度 搜索 
的 超 链 接 ， 点 击 即 可 跳 转 至 百度 搜索 。 


menuItem(" 百 度 搜索 "，icon = icon("file-code-o")， 
href = "http://www.baidu.com") 


2) 在 dashboardBody 中 添加 tabltem 和 tabltems， 并 将 tabName 的 名 称 设置 为 与 menu-ltem 相 同 ， 将 需要 在 这 个 tab 主 面板 显示 的 内 容 代码 放置 在 此 处 即 可 。 在 dashboardBody 添 加 以 下 代码 得 到 
的 结果 如 图 13-15 所 示 。 


# 主 面板 的 内 容 
dashboardBody( 
tabItems ( 
# 第 一 个 标签 内 容 
tabItem(tabName = "data", 
fluidRow( 
box (tableOutput ("mytable")), 
box tninericinput (un", "请 过 择 委 委 看 装载 据 符 " value 三 6)) 
)), 
# 第 二 个 标签 内 容 
tabItem(tabName = "chart", 
column (8,plotOutput ("myplot"), 
checkboxInput ("outliers", "显示 异常 点 "7 FALSE)))) 


My First App 


团 Data 


请 选择 要 查看 的 数据 行 


wz Chart 6 


图 13-15 在 不 同 tab 的 主 面板 添加 内 容 


默认 显示 第 一 个 Data 的 内 容 ， 单 击 Chart 时 ， 会 显示 Chart 的 主 面板 内 容 。 接 下 来 完善 server 端 的 内 容 ， 就 可 以 得 到 一 个 完整 的 App 应 用 。 在 server 端 添加 以 下 代码 得 到 的 结果 如 图 13-16 与 图 13-17 所 


个 。 


server <- function(input, output) { 
# 向 用 户 界面 输出 Iris 数据 表 ， 根 据 inputSn 输 出 行 数 
outputSmytable <- renderTable({ 
head (iris,inputs$n) 


}) 
# 向 用 户 界面 输出 箱 线 图 ， 并 根据 ijnput$outliers 判 断 是 否 输 出 异常 点 
output$myplot <- renqerPlot ({ 
boxplot (SepalL .Length~Speciesdqata=iris， 
col=rainbow (3),outline = input$outliers) 


}) 


主 面板 可 以 包含 任何 常规 的 shiny 内 容 。 大 部 分 仪表 板 的 基本 构建 块 是 box，box 反 过 来 可 以 包含 任何 内 容 。 在 shinydashboard 中 ，box() 函数 可 以 创建 一 个 基本 框 ，box 的 内 容 可 以 是 任何 shiny 的 UI 


内 容 。box () 函数 的 表达 形式 为 : 


box (title = NULL, status = NULL,solidHeader = FALSE, 
background = NULL, width = 6, height = NULL,collapsible = FALSE,…) 


My First App 
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图 13-16 Data 菜单 项 显示 数据 
My First App 
上 Data 


lw Chart 


setosa versicolor virginica 


显示 卉 常 点 


图 13-17 Chart 菜单 项 显示 箱 线 图 


其 中 ，title 设 置 标题 内 容 ; status 设 置 标题 颜色 ， 可 选 颜 色 有 : primary (深蓝 色 ) 、success (绿色 ) 、info ( 蓝 色 ) 、warning ( 柳 色 ) 、danger (红色 ) ; solidHeader 设 置 标题 是 否 以 纯色 背景 显 
示 ; collapsible=TRUE 在 右上 角 显 示 折 芭 按钮 ;background 选 项 设置 背景 颜色 。 


例如 ， 想 对 mytable 的 box 增 加 标题 ， 并 将 标题 颜色 设置 为 绿色 ， 并 显示 折 和 芭 按 钮 。 对 滑动 条 的 box 增 加 标题 ， 标 题 颜色 设置 为 深蓝 色 ， 并 将 背景 色 设 置 为 purple。 在 代码 中 添加 以 下 内 容 。 完 整 代码 请 
查阅 myshinydashboard 文 件 夹 ， 运 行 结果 如 图 13-18 所 示 。 


box (title="iris 数 据 集 " status=nsuccessn， 
solidHeader = TRUE,collapsible=TRUE, 
tableOutput ("mytable")), 

box (tit1le=" 滑 动 条 ", status="primary",solidHeader = TRUE, 
collapsible=TRUE,background="purple", 


numericInput ("n" "请 选择 要 查看 的 数据 行 ",value = 6) ) 


iris 数 据 集 滑动 条 


Sepal.Length Sepal.Width Petal.Length Petal.Width Species 请 选择 要 查看 的 数据 行 


5.10 | 1.40 0.20 setosa 6 
4.90 F 1.40 0.20 setosa 
4.70 1.30 0.20 setosa 
.60 :50 .20 setosa 
.O00 :40 .20 setosa 


. 40 . ?0 .40 setosa 


图 13-18 ”利用 box 函 数 增加 标题 和 设置 标题 样式 


仪表 盘 包 括 很 多 的 主题 或 者 皮肤 。 上 默认 为 blue 蓝 色 ， 还 有 包括 其 他 的 颜色 : black (黑色 ) 、purple (紫色 ) 、green (绿色 ) 、red (红色 ) 、yellow (黄色 ) 等 。 可 以 使 用 
dashboardPage (skin="blue") 等 进行 设置 。 


更 多 shinydashboard 的 知识 ， 可 查阅 http://rstudio.github.io/shinydashboard/。 


13.3 ”案例 一 : 搭建 数据 可 视 化 原型 


接 下 来 ， 将 前 面 学 到 的 绘图 和 建 模 技 术 结合 Shiny Web 开 发 框架 ,一步 步 搭建 数据 可 视 化 平台 demo。 先 创建 新 文件 夹 ， 将 其 命名 为 数据 可 视 化 原型 ， 并 在 数据 可 视 化 原型 文件 夹 中 创建 两 个 脚本 ui.R 和 
server.R， 用 来 存放 客户 端 和 服务 端的 脚本 (备注 : 平台 完整 ui.R 和 server.R 在 数据 可 视 化 原型 文件 夹 中 ) 。 原 型 最 终 效果 如 图 13-19 所 示 。 


先 将 原型 UI 框架 建 好 ， 执 行 以 下 代码 得 到 的 原型 框架 如 图 13-20 所 示 。 


# ui.R 
dashboardPage ( 
dashboardHeader (title=" 数 据 可 视 化 平台 demo")， 
dashboardSidebar( 
sidebarMenu ( 
menuItem(" 基 础 绘图 展示 ", tabName = "basedemo")， 
menuItem("rCharts 绘 图 展示 ", tabName = "rChartsdemo")， 
menuItem(" 社 会 网 络 图 展示 ", tabName = "SNdemo")， 
menuItem(" 模 型 结果 可 视 化 展示 ", tabName = "viz") 
) ) ， 
dashboardBody( 


) ) 
#server.R 
function(input, output) { 


数据 可 视 化 平台 demo 


lattice 包 绘制 散 点 图 矩阵 


Number of Cylinders 


14 mile 


Scatter Plot Matrix 


图 13-19 ”数据 可 视 化 原型 


让 我 们 一 步 步 完 成 主 面板 的 功能 。 对 于 lattice 包 和 ggplot2 绘 制 的 静态 图 形 ， 在 server.R 中 用 render-Plot () 函数 将 图 形 赋予 输出 对 象 mygraph， 并 在 ui.R 中 用 plotOutput (“mygraph”) 将 图 形 输 
出 到 web 中 。 形 式 如 下 。 


数据 可 视 化 平台 demo 


异型 结果 可 视 化 展示 


图 13-20 ”数据 可 视 化 原型 框架 


# server.Rt# 

output$mygraph <- renderpPlot ({ 
graph function (formula,data=,…) 
}) 
# ui.R# 

plotOutput ("mygraph") 


添加 以 下 代码 ， 在 网 页 上 输出 利用 lattice 包 绘制 的 散 点 图 矩阵 和 用 ggplot2 包 绘制 的 密度 图 。 结 果 如 图 13-21 所 示 。 


# server.R 
# 利用 1attice 包 中 的 绘图 函数 
output$splom <- renderPlot({ 
splom(mtcars[c(1l, 3:7)], groups = mtcars$cyl, 
pscales = 0,pch=1:3,col=1:3, 
varnames = C("Mi] re Vea Ta "Displacement\n(cu. in.)"v 
"Gross\nhorsepower", "Rear\naxle\nratio", 
"Weight", "1/4 mile\ntime"), 
key = list(columns = 3, title = "Number of Cylinders", 
text=]list (levels (factor (mtcarsScyl1L) ) ) ， 
Points=1L1st (pch=1 :3,col=1:3))) 


}) 
# 利用 ggplot2 包 中 的 绘图 函数 
output$myggplot <- renqerPlot (({ 
data (singer,package = "lattice") 
p <- ggplot (data=singer,aes (x=height, fill=voice.part))+ 
geom density()+ 
facet grid(voice.part~.) 


})) 
#ui .R 
tabItem(tabName = "basedemo", 

box (title = mlattice 包 绘制 散 点 图 矩阵 "， 
width = 6,solidHeader = TRUE， 
background = "light-blue", plotOutput ("splom")), 
box (title = "ggplot2 包 绘制 的 密度 图 "， 
width = 6,solidHeader = TRUE, 
background = "light-blue", plotOutput ("myggplot"))) 


lattice 包 综 制 散 点 图 算 阵 会 制 的 密度 
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图 13-21 lattice 和 ggplot2 结 合 shiny 输 出 web 页 面 


对 于 用 rCharts 包 绘制 的 图 形 ， 在 server.R 中 用 renderChart () 函数 将 图 形 赋予 输出 对 象 mygraph， 并 在 ui.R 中 用 showOutput ("mygraph") 将 图 形 输出 到 web 中 。 形 式 如 下 (以 hPlot 函 数 为 例 ) 。 


# server.Rt# 
output$mygraph <- renderChart ({ 
pl <- hpPlot (formula,data,type,…) 
pl$addParams (dom="mygraph") 

return (pl1) 


}) 
# ui.R# 
ShowoOutput ("mygraph", "highcharts") 


添加 以 下 代码 ， 在 网 页 上 输出 nPlot 遂 数 绘制 的 交互 柱状 图 ， 如 图 13-22 所 示 。 


# server.R # 
outputSmychart1 <- renderChart ({ 

hair eye male <- subset (as.data.frame (HairEyeColor), Sex = "Male") 

hair eye male[,1] <- paste0 ("Hair",hair eye malel[,1]) 

hair eye male[,2] <- paste0 ("Eye",hair eye malel[,2]) 
pl <- nPlot (Freq ~ Hair, group = "Eye", data = hair eye male, type = "multi-BarChart") 
pl$chart (color = c('brown', 'blue', '#594c26', 'green')) 
pl$addParams (dom="mychart1") 
return (pl1) 


# ui.R # 
tabItem(tabName = "rChartsdemo", 
box (title = "nPlot 马 数 qemo 演 示 "， 
bsolidHeader = TRUE,collapsible = TRUE,width="100%", 
ShowOutput ("mychartl1l", "nvd3"))) 


nPlot 遂 数 demo 演 示 
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== | 
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图 13-22 ”nPlot 肖 数 结合 shiny 输 出 交互 柱状 图 


添加 以 下 代码 ， 在 网 页 上 输出 hPlot 遂 数 绘制 的 交互 气泡 图 ， 如 图 13-23 所 示 。 


# server.R # 
# hP1ot 函 数 
outputSmychart2 <- renderChart ({ 
a <- hPlot (Pulse ~ Height, data = MASS: :Survey type = "bubble", title = "Zoom demo", subtitle = "bubble chart", size = "Age", group = "Exer") 
Aadcolors("'rgqba(223, 83, 83, .35)", "rgba(ll9, 152,; 191, .35)”, "rgbal(60, 179, 113, w3)") 
aschart (zoomType = "xy") 
a$exporting (enabled = TT) 
a$addParams (dom="mychart2") 
return (a) 
}) 
# Ui.R# 
box (title = "hpPlot 未 数 demo 演 示 "， 
bsolidHeader = TRUE,collapsible = TRUE,width="100%", 
ShowOutput ("mychart2", "highcharts")) 


hPlot 冰 数 demo 演 示 


社会 网 络 图 展示 页 面 提供 了 丰富 的 功能 选项 ， 


果 如 图 13-24 所 示 。 


O Freq 


175 


Zoom demo 
bubble chart 


Height 


时 None 


时 Some 


可 通过 单 选 按钮 选择 社会 网 络 图 的 布局 ， 一 个 单一 复 选 框 选择 是 否 
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图 13-23 ”hPlot 吕 数 结合 shiny 输 出 交互 气泡 图 


点 


oA 


label， 滑 动 条 控制 节点 大 小 ， 并 提供 了 图 形 下 载 功能 。 


1 


添加 以 下 代码 得 到 的 结 


#server.R 


# 社会 网 路 图 


plotGraph <- 


} 


g <- make graph( ~ A-B-C-D-A, E 


plotlayout <- Switch (input$PlotL 


— 


PF- 


} 


V(g)$size = 


8 


function(){ 


E-A:B:C:D, 
F-G-H-I-F, J-F:G:H:I, 
K-L-M-N-K, O-K:L:M:N, 
P=O=R=o—B;. T=-BPSOR:S, 
B-F, E-J, C-I, L-T, O-T, M-S, 
C=P, C=L, LI=Ly. T=P) 
ayout, 
"Auto"=layout.auto(g), 


"Random"=]ayout .random (9) ， 
"Circle"=]layout.circle(g), 
"Sphere"=layout .Sphere (g), 


"Fruchterman 


Reingold"=layout.fruchterman.reingold(g), 


"Kamada Kawai"=layout.kamada.kawai (g), 


"Drl"=layout 


.drl1 (g), 


"Spring"=layout.spring(g), 


"Reingold Ti 


"Fruchterma Reingold Grid"=]layout .1 


ford"=]ayout .reingold.ti1] 


"Lgl1"=layout. 


lg1 (9g), 


"Graphopt"=layout .graphopt (9g), 


"SVD"=layout 


f(!input$showNodeName) { 
V(g) $label = "" 


input$vertexSize 
ot(g, layout=plotlayout) 


outputsgraphPlot <- renderPlot ({ 


}) 


pl 


otGraph () 


# 下 载 社会 网 路 图 


Ou 


#ui. 


下: 


}, 


content = 


tpu 
filename = 


Function ( 


Fi 


{ 


le) { 


paf (file) 


.Svd (9g) 


tSdownloadPlot <- downloadHandler ( 
function () 
paste ('NetworkGraph' ,1 


print (suppressWarnings (plotGraph () ) ) 


dev .off () 


Item( 


fluidRow ( 
CO] 


um (12, well 


tabName = "SNdemo", 


Panel ( 


)), 


column (4, well] 


plotOutput (" 


| Panel ( 


'graphPlot") 


radioButtons (inputId="Plo 


)), 
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"Fruchterma Reingold 


tLayout", label="P] 


ford (g), 
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ot Layout", 
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.pdf', sep="") 


le", "Sphere", "Fruchterman Reingold", 


Grid", 


","Spring", "Reingold Tilford", 


"Lgl", "Graphout", "SVD"), selected="Auto") 


column (4, wellPanel ( 


checkbox] 


slider] 


[Input (InputId = 


[nput (InputId = 


label 


)), 


column (4, wellPanel ( 
downloadButton('downloadPlot', ‘'Download Plot in pdf 


) ) ) ) ， 


label = 
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"Show Vertex Label", 
"vertexSize", 
"Vertex Size", 
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图 13-24 ipgraph 结 合 shiny 输 出 web 页 面 


选择 Circle 布 局 ， 将 节点 的 大 小 调整 到 20， 并 取消 显示 节点 标签 ， 得 到 的 结果 如 图 13-25 所 示 。 
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图 13-25 ”改变 布局 及 节点 大 小 


对 于 模型 可 视 化 的 结果 ， 也 可 以 使 用 这 种 方式 把 结果 在 网 页 上 输出 。 对 关联 规则 和 kmeans 聚 类 结果 进行 可 视 化 ， 并 增加 选择 栏 和 数字 输入 选项 来 调整 天 联 规则 可 视 化 的 方法 和 聚 类 的 K 值 。 添 加 以 下 代 
得 到 的 结果 如 图 13-26 所 示 ， 此 时 关联 规则 可 视 化 中 的 方法 选择 的 是 graph，K 均 值 聚 类 的 K 值 选择 的 是 3 


#server.R 
# 关 联 规则 可 视 化 
outputS$groceryrules <- renqerPlot ({ 
data (Groceries) 
groceryrules <- apriori (Groceries,parameter = 
list(support=0.006,confidence=0.25,minlen=2)) 
plot (subset (groceryrules,1ift > 3),method=inputs$method) 


}) 
# 聚 类 结果 可 视 化 
clusters <- reactivel(t{ 
kmeans (iris[,1:4],input$clusters) 


}) 


output$kmeans <- renderPlot(f{ 
plot (iris[,c('Sepal.Length','Sepal .Wiqgdth')], 
col = clusters () $cluster, 
pch = 20, cex = 2) 
points (clusters () $centers, pch = 4, cex = 2, lwd = 4) 
}) 
#ui.R 
tabItem(tabName = "viz", 
box (title = "关联 规则 可 视 化 "， 
width = 6,solidHeader = TRUE,collapsible = TT, 
background = "red",plotOutput ("groceryrules")), 
box (title = "kmeans 结 果 可 视 化 "， 
width = 6,solidHeader = TRUE,collapsible = TT, 
background = "red",plotOutput ("kmeans")), 
colum (6, selectInput (inputId="method", label=" 请 选择 关联 规则 可 视 化 的 method"， 
choices=c ("graph", "scatterplot", "two-key plot", "matrix", 
"matrix3D", "paracoord") ) ) ， 
column (6,numericInput ('clusters'，' 请 选择 k 值 '，3， 
min = 1, max = 9))) 


~ 一 


如 果 选 择 method 方 法 为 paracoord，K 取 值 为 4， 得 到 的 结果 如 图 13-27 所 示 。 


更 一 般 地 ， 可 以 利用 R 的 图 形 布局 参数 设置 函数 par 来 自 定义 一 幅 图 形 的 多 个 特征 (点 样式 、 页 面 布 局 等 ) 。 如 图 13-28 所 示 ， 利 用 plot 函 数 生成 用 于 评价 线性 回归 模型 拟 合 情 况 的 四 幅 图 形 ， 通 过 par 参 
数 设 置 四 幅 图 形 按照 2 行 2 列 摆 放 ， 将 点 样式 设置 为 "*"， 最 后 通过 renderPlot 和 plotOutput 函 数 把 生成 好 的 图 形 输出 到 网 页 。 


# server.R # 
output$lm.fit <- renderPlot ({ 
fit <- lm(Sepal.Length~Sepal .Width,data=iris[,1:4]) 
par (mfrow=c (2,2) ,pch="*") 
plot (fit) 
}) 
# ui.R# 
column (12, box (title = "评价 线性 模型 拟 合 情况 可 视 化 ", status="primary", 
solidHeader = TRUE,collapsible = T,width="100%", 
plotoOutput (lm. fit") )) 


关联 规则 可 视 化 kmeans 结 果 可 视 化 


Graph for 25 rules 
size: support (0.006 -0.017) 
color: lift (3.002 - 3.956) 
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图 13-26 ”模型 结果 可 视 化 


关联 规则 可 视 化 kmeans 结 果 可 视 化 


Parallel coordinates plot for 25 rules 
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paracoord 


图 13-27 模型 结果 可 视 化 


评价 线性 模型 拟 合 情况 可 视 化 


Residuals vs Fitted Normal Q-Q 
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图 13-28 评价 线性 模型 拟 合 情况 可 视 化 


13.4 ”案例 二 : 用 户 细 分 及 付费 预 则 平台 
不 同 游戏 类 型 对 大 R、 中 R、 小 R 用 户 的 划分 标准 有 所 不 同 ， 我 们 希望 设计 可 供 选 择 不 同 划分 赋值 的 滑动 条 ， 统 计 不 同 用 户 群 的 占 比 和 金字塔 分 布 ， 根 据 金 字 塔 查看 人 群 分 布 是 否 合理 (备注 : 平台 完 
ui.R 和 server.R 在 细 分 用 户 平台 文件 夹 中 ) 。 平 台 效 果 如 图 13-29 所 示 。 


图 13-29 为 金字 塔 模型 界面 ， 包 括 三 个 用 户 群 划分 阐 值 的 滑动 条 ， 增 加 了 自动 播放 功能 ; 下 面 是 4 个 valueBox， 统 计 了 不 同 用 户 群 人 数 和 占 比 ; 最 后 是 两 个 金字 塔 ， 第 一 个 是 包括 非 R 用 户 群 的 金字 塔 ， 
另 一 个 是 付费 用 户 群 的 细 分 金字 塔 。 用 户 分 群 研 究 的 另 一 个 子 菜单 项 : 用 户 号 码 包 查 询 ， 提 供 了 选择 查看 不 同 用 户 群 的 消费 金额 数据 和 数据 下 载 功能 。 潜 在 付费 用 户 挖掘 包括 用 户 活跃 数据 子 菜单 、 箱 线 图 
子 菜单 和 决策 树 建 模子 菜单 ， 具 体 功能 等 会 再 介绍 。 


首先 构建 侧 边 面 板 的 菜单 项 ， 利 用 menultem 和 menuSubltem 辆 数 生成 菜单 和 子 菜单 选项 。 在 sidebarMenu 中 添加 以 下 代码 ， 得 到 的 结果 如 图 13-30 所 示 。 


sidebar <- qdqashpboatrqSiaqebar ( 
sidebarMenu ( 
menuItem(" 用 户 分 群 研究 ",icon = icon ("user-md") ,tabName="dashboard", 
menuSubItem ("金字塔 模 型 ", tabName="pyramid",icon=icon ("apple"))， 
menuSubItem(" 用 户 号 码 包 查询 ", tabName="userid",icon=icon ("table")) 


), 
menuItem ("潜在 付费 用 户 挖 气 ",icon = icon("heart") ,tabName="payuser", 
menuSubItem(" 用 户 活 跃 度数 据 ",tabName="actionuer",icon=icon("table"))， 
menuSubItem(" 箱 线 图 ", tabName="boxplot",icon = icon("area-chart"))，, 
menuSubItem ("决策 树 建 模 ", tabName="treemodel",icon= icon ("male")) 


用 户 细 分 平台 三 


用 性 分 群 研究 小 R 划 分 值 


金字 塔 模型 


85.89% 8.23% 2.58% 
闪 RA 纪 攻 民 123610 人 AR 人 总共 洲 10169 A soR 人 人 奖 龙 洲 3163 人 


2.46% 0.84% 
太 RA 帝 托 导 3038 人 全 RA 人 总 龙 洲 1044 人 


用 户 分 群 金 字 塔 图 


0.859 0.082 0.026 0.025 


图 13-29 用户 细 分 平 


Q 


图 13-30” 侧 边栏 生成 菜单 选项 


在 金字 塔 模型 界面 的 主 面板 添加 3 个 滑动 条 ，4 个 valueBox 的 内 容 随 着 滑动 条 数值 变化 而 动态 统计 人 数 和 占 比 ， 最 后 的 两 个 动态 金字 塔 图 ， 也 是 根据 滑动 条 值 的 变化 而 动态 变化 。 在 ui.R 的 主 面板 中 ， 将 
sliderlnput 函 数 中 的 animate 人 参数 设置 为 animation-Options (loop=T) ， 即 可 实现 自动 循环 播放 功能 ， 点 击 滑动 条 右 下 角 小 三 角 即 可 。 在 server.R 中 用 renderValueBox () 函数 输出 valueBox 对 象 ， 并 
在 ui.R 中 用 valueBoxOutput ("valueBox 对 象 ") 将 结果 输出 到 主 面板 中 。 分 别 在 server.R 和 ui.R 添 加 以 下 代码 ， 得 到 的 结果 如 图 13-31 所 示 。 


#server.R 
# 统计 不 同 用 户 群 的 占 比 
outputSvbox0 <- renderValueBox({ 
ValueBox ( 

h4 (strong ("85.89%",style="color:white;")), 
subtitle = h5 (em(paste(" 非 R 人 数 共计 ",n," 人 ") ))， 
icon = icon("user-md"), 
color="aqua", 
width=2 


output$small <- renderValueBox ({ 
ValueBox ( 
h4 (strong (Paste (round (nrow (small () ) /nx100,2)，"gs"y sep=""), 


r 


subtitle = h5 (em(paste ("小 R 人 数 共计 ",nrow(small())," 人 ")))， 
icon = icon("user-md"), 
color="aqua", 
width=2 
) 


}) 
output$smiddle <- renderValueBox (1 
valueBox( 
h4 (strong (paste (round (nrow (miqddle ())/n*100,2),"%$", sep=""), 
))s 
subtitle = h5 (em (paste ("中 R 人 数 共计 ",nrow (middle())," 人 ")))， 
icon = icon("user-md"), 
color="aqua", 
wigdth=2 
) 


}) 
output$big <- renderValueBox (1 
valueBox( 
h4 (strong (paste (round (nrow (big())/n*100,2),"$",sep=""), 
)), 
subtitle = h5 (em(paste ("大 R 人 数 共计 ",nrow (big())," 人 ")))， 
icon = icon("user-md"), 
color="aqua", 
width=2 
) 


output$super <- renderValueBox({ 
ValueBox ( 
h4 (strong (paste (round (nrow (super () ) /n*100,2),"%$", sep=""), 
)), 
subtitle = h5 (em (paste(" 超 R 人 数 共计 ",nrow (super())," 人 ")))， 
icon = icon("user-md"), 
color="aqua", 


width=2 
) 
}) 
#ui.R 
body <- dashboardBody( 
tabItems ( 
tabIlItem(tabName = "pyramid", 
fluidRow( 
column (4, sliderInput ("small", "小 R 划 分 值 ",min=10,max=50,value=30， 
step=10,animate=animationOptions (loop=T))), 
column (4, sliderInput ("middle", "中 R 划 分 值 ", min=100,max=150,value=100，, 
step=10,animate=animationOptions (loop=T))), 
column (4, sliderInput ("big", "大 R 划 分 值 ",min=500,max=600,value=100， 
step=20, animate=animationOptions (loop=T))), 
valueBoxOutput ("vbox0"), 
valueBoxOutput ("small"), 
valueBoxOutput ("middle"), 
valueBoxOutput ("big"), 
valueBoxOutput ("super")) 
dashboardPage ( 
dashboardHeader (title=" 用 户 细 分 平 合 ")， 
sidebar, 
body, 


skin="blue") 


85.89% 
展 R 总 世 沪 123610 人 


2.46% 
二 RA 帝 攻 民 3038 人 


接 下 来 在 金字 塔 模型 子 菜单 添加 金字 塔 图 ， 实 现 随 3 个 滑动 条 的 数值 变化 而 动态 更 新 。 可 以 通过 barplot 函 数 实现 ， 先 对 数据 x 绘 制 条 形 图 ， 然 后 对 数据 求 负数 ， 再 利用 barplot 函 数 绘制 反 向 条 形 图 即 


8.7% 
RA 攻 10757 A 


0.84% 
RA 疡 老 导 1044 人 


图 13-31 在 金字 塔 模型 界面 中 添加 滑动 条 和 valueBox 


可 ， 但 要 注意 将 add 参 数 设置 为 T。 分 别 在 server.R 和 ui.R 添 加 以 下 代码 ， 得 到 的 结果 如 图 13-32 所 示 。 


2.1% 
RA 误工 坟 2595 人 


#server.R 
# 绘制 金字 塔 图 
output$barplot <- renderpPlot ({ 


x<-cC (0.8589, round (nrow (smal 


[1())/n,4),round (nrow (middle())/n,4), 


round (nrow (big())/n,4), round (nrow (super())/n,4)) 


y<-—-x 


barplot (x, horiz=T, space=0, xlim=c (-1,1),axes=F,col="green") 


axls (ZC(0s3 ,L323 3D) 


abe] 


S=C (" 非 R"， "小 R"， m 中 R" . m 大 Rn 人 " 超 R") 


tick=FALSE, cex.axis=0.8) 


axis (4,c(0.5,1 


ey ey 7 本 


abe] 


s=round (X 3), 


tick=FALSE, cex.axis=0.75) 
barplot (y, horiz=T, space=0,add=T, col="green", axes=F) 
}) 
#ui.R 
fluidRow ( 


box (title = "用 户 分 群 金字 塔 图 "， 
width = 6, solidHeader = TRUE, 
background="maroon", 
plotOutput ("barplot", width = "100%", 

pox (title = "用 户 分 群 金字 塔 图 (针对 付费 用 户 ) "， 
width = 6, solidHeader = TRUE, 
backgroungd="agqua", 
plotOutput ("barplotl", width = "100%", height = 300))) 


height = 300)), 


用 户 分 群 金字 塔 图 用 户 分 群 金字 塔 图 ( 针对 付费 用 户 ) 
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图 13-32 ”绘制 动态 金字 塔 图 


用 户 号 码 包 查询 子 菜单 包括 三 个 部 分 : 用 于 查询 不 同 用 户 群 的 下 拉 框 、 数 据 表 展 示 、 下 载 数据 功能 。 使 用 selectlnput 函 数 创建 下 拉 列 表 框 ， 选 项 包括 小 R、 中 R、 大 R 和 超 R; 使 用 DT 包 的 datatable 函 数 
展示 数据 表 ; 使 用 downloadButton 函 数 下 载 数据 表 。 分 别 在 server.R 和 ui.R 添 加 以 下 代码 ， 得 到 的 结果 如 图 13-33 所 示 。 


# server.R 


# 查看 不 同 的 用 户 群 号 码 包 


outputStable <- DT: :rendqerDataTable ( 
Switch (input$dataset,"1"=small (),"2"=middle(),"3"=big(),"4"=super ())， 
options=1list (pageLength=10)) 
# 下 载 号 码 包 
output$downloadCsv <- downloadHandler( 
filename = "userid.csv", 
content = function(file) { 
write.csv (switch (input$dataset, "1"=small (),"2"=middle(),"3"=big(),"4"=super()), file,row.names=F)}, 
contentType = "text/csv") 
# ui.R 


tabItem(tabName = "userid", 
selectInput ("dataset"，" 选 择 需 要 查看 的 用 户 群 :"， 
choices = cl(" 小 R"=1，" 中 R"=2，" 大 R"=3，" 超 R"=4) ) ， 


DoX ( 
title = "RaW Data", status = "primary", solidHeader = TRUE， 
width = 12, collapsible = T, 
DT: :dataTableOutput ("table") 

) v 


downloadButton ("downloadCsv", "Download as CSV") 


用 尸 细 分 平台 


龟 用 户 分 群 研究 


图 用 户 号 码 包 查询 


player_id $ 
4055612 
16483758 
26791427 
29582871 
30680752 
30728041 
33769621 
34415793 
36482174 


37153537 


Showing 1 to 10 of 10,169 entries Previous 四 2 3 4 5 


赤 Download as CSV 


图 13-33 ” 展现、 下载 不 同 用 户 群 数据 


潜在 付费 用 户 挖掘 菜单 包括 用 户 活跃 度数 据 、 箱 线 图 、 决 策 树 建 模 三 个 子 菜单 。 用 户 活跃 度 展示 了 每 位 用 户 的 活跃 明细 数据 ， 箱 线 图 按照 是 否 付费 进行 分 组 ， 查 看 不 同 用 户 群 的 数据 情况 ;决策 树 建 模 
包括 根据 决策 树 算法 得 到 的 决策 树 树 形 图 ， 并 对 结果 进行 解释 。 分 别 在 server.R 和 ui.R 中 添加 以 下 代码 ， 得 到 的 结果 如 图 13-34 所 示 。 


付费 用 性 只 占 到 所 有 活路 用户 的 14%,， 该 份 数据 属于 类 失 贷 数据 ， 在 进行 下 一 步 建 模 之 前 需要 进行 数据 抽样 处 理 ， 达 到 类 平衡! 


1) 各 线 杉 浊 他 分 区 ，90$ 的 线 格 作为 沽 民 条 忆 家 佣 礁 ，103 的 线 可 作 为 冉 汪 亲 甩 灾 冉 让 蕉 错 ， 
2) 天 周斌 菜 浊 疗 这 癌 租 棒 ， 盆 辽 共 放贷 : 他 条 -6:4， 芝 妈 光 子 谷 。 


决 案 树 形 图 决策 树 规则 解读 


规则 1: 最 后 一 周 登录 天 数 =1and 
最 后 一 周 登录 六 数 <= 3: 


符合 规则 的 玩家 有 35683 个 ， 其 中 
有 2316 位 付费 玩家 ， 付 费 率 是 
6.5% 。 


最 后 一 周 登录 天 数 =1 and 最 后 一 周 
登录 /多数 >3: 


符合 规则 的 玩家 有 4430 个 ， 其 中 付 
Node3(n=35683) Node4(n=4430) Node6 (n=10295) Node7 (n=28747) 费 玩家 有 2548 个 ， 付 费 率 是 57.5%， 
故 可 以 认为 次 规则 是 付费 玩家 节 
0.8 0.8 0.8 0.8 


YY 


0.6 0.6 0.6 0.6 


0.4 0.4 0.4 0.4 最 后 一 周 登录 天 数 >=1 and 最 后 一 
= 人 > , 
02 02 02 02 周 登录 ;* 数 >6: 


0 8 一 0 0 符合 规则 的 玩家 有 28747 个 ， 其 中 
付费 玩家 有 22322 个 ， 付 费 率 是 
77.6%, 故 可 以 认为 该 规则 是 付费 玩 
家 节点 。 


总 绍 : 最 后 一 局 附录 天 数 =1 and 最 后 一 周 登 录 次 数 >3 or 最 后 一 局 登录 天 数 大 于 1 天 ， 旦 最 后 一 周 的 登录 次 数 大 于 5 次 的 玩家 
可 以 认为 是 高 潜在 付费 有 用户， 运营 可 以 和 针对 这 批 用 户 进 行 活动 推送 ， 促 使 玩家 转化 ! 


图 13-34 决策 树 模型 界面 


#server.R 
###### ”潜在 付费 用 户 挖掘 提 ###### 
# 导出 明细 数据 
output$actionuer <- DT: :renderDataTable({ 
DT: :datatable (actionuser) 


}) 
# 画 出 箱 线 图 
output$boxplotl <- renderPlot({ 
par (mfrow=c (2, 3)) 
fow(t. Ln .207) 
boxplot (actionuser[,i]~actionuser$ 是 否 付 费 , col=c (1,2)*i,outline=FALSE, 
main=paste (colnames (actionuser) [i]," 箱 线 图 ") 
par (mfrow=c (1,1)) 


# 画 决 策 树 图 
output$treeplot <- renderPlot({ 
plot (ctree. sol) 


一 


tabItem (tabName="actionuer", 

DT: :dataTableOutput ("actionuer")), 

tabItem(tabName = "boxplot™",…, 
plotOutput ("boxplot1")), 
tabItem (tabName="treemodel™",……, 
box (title=" 决 策 树 形 图 ", status = "primary", 

solidHeader = TRUE, width = 8,height=500,collapsible = TI 

plotOutput ("treeplot")),……) 


13.5 案例 三 : 渠道 用 户 打 分 平台 


利用 渠道 运营 数据 中 的 关键 指标 数据 ， 构 建 通用 的 渠道 用 户 质量 评价 体系 ， 对 渠道 用 户 质量 进行 综合 打分 。 渠 道 用 户 打分 平台 包括 三 部 分 内 容 : 原始 数据 碍 询 及 下 载 、 同 一 款 游 戏 在 不 同 渠道 的 打分 模 
型 以 及 帮助 文档 (备注 : 平台 完整 ui.R 和 server.R 在 渠道 用 户 打 分 平台 文件 夹 中 ) 。 平 台 的 打分 模型 如 图 13-35 所 示 。 


原始 数据 查询 同一 款 游戏 在 不 同 深 道 的 打分 模型 帮助 文档 


Show [10 7 |entries ee [| 


游戏 名 种 令 《” 秒 道 名 称 令 ”自然 周 售 ” 周 收入 旬 。” 周 活跃 用 户 数 旬 ” 第 日 留存 率 邹 。” 周 付费 率 刍 。 周 ARPPU 依 


游戏 C 渠道 第 1 周 311 989 0.114 0.024 0315 
游戏 A 渠道 第 1 有 周 814 0.149 0.012 11 
游戏 B 第 1 有 周 0.105 0.017 0.432 
游戏 F 1 三 第 1 周 0.059 0.015 

游戏 E 渠道 第 1 周 0.094 0.055 

游戏 D 二 第 1 周 

游戏 6 : 第 1 周 0.056 

游戏 C 渠道 第 2 周 0.153 

游戏 A 渠道 第 2 周 870 0.122 


10 ”游戏 6 温 诈 第 2 后 24516 0.063 


Showing 1 to 10 of 2,241 entries Previous [| 2 3 4 5 


翅 Download as CSV 


图 13-35 ”平台 打分 模型 


我 们 希望 隐藏 标题 面板 和 侧 边栏 面板 ， 故 将 两 者 的 参数 disable 设 置 为 TRUE， 并 通过 tabltem 函 数 在 主 面板 创建 选项 卡 面板 。 运 行 以 下 代码 得 到 如 图 13-36 所 示 的 平台 框架 。 


#ui.R 


library (shiny) 
library (shinydashboardg) 
dashboardPage ( 
dashboardHeader (disable = TRU] 
dashboardSidebar (disable = TR 
dashboardBody( 
tabItem(tabName = "Data", 
tabBox (width = 12, 
tabPanel ( "原始 教 所 查询 ), 
tabPanel 0 渠道 的 打分 模型 ")， 
tabPanel(' 0 文档 '))))) 


己 回 
园 疤 


一 


#server.R 
server <- function (input,output){ } 


怕 闪 数据 得 词 同一 于 游戏 在 涉 则 | 拧 坦 的 打分 模型 天 助 区 档 


图 13-36 ”渠道 用 户 打 分 平台 框架 


渠道 用 户 打 分 平台 文件 夹 中 除了 ui.R、server.R 文 件 外 ， 还 有 rawdata.RData 文 件 是 用 来 构建 打分 平台 的 原始 数据 集 ， 需 要 通过 load ("rawdata.RData") 将 数据 加 载 到 R 中 ; global.R 文 件 是 自 定义 
channel_score () 函数 ， 用 于 计算 指标 得 分 。 


分 别 在 server.R 和 ui.R 中 添加 以 下 代码 ， 得 到 的 原始 数据 查询 界面 如 图 13-37 所 示 。 


#server.R 


# 原始 数据 展示 
output$rawdata <- DT::renderDataTable ({ 
datatable (rawdata) 


}) 

# 原始 数据 下 载 

output$downloadCsv <- downloadHandler ( 
filename = "rawdata.csv", 

content = function(file) { 

write.csv (rawdata, file) 


}, 
contentType = "text/csv" 
) 
#ui.R 
tabPanel ("原始 数据 查询 "， 
DT: :dataTableOutput ("rawdata"), 
downloadButton ("downloadCsv", "Download as CSV") 


) 


可 以 对 数据 表 添 加 排序 、 翻 页 查看 等 功能 ， 单 击 Download as CSV 按 钮 可 以 调 出 文件 保存 窗口 ， 选 择 要 保存 文件 的 目录 路 径 ， 如 图 13-38 所 示 。 


同一 款 游戏 在 不 同 渠 道 的 打分 模型 界面 ， 分 别 包 括 参 数 选择 、 权 重 设置 、 指 标 得 分 、 渠 道生 存 曲 线 和 最 近 一 周 得 分 统计 等 内 容 。 


参数 选择 包括 3 个 下 拉 列 表 框 ， 提 供 选择 起 始 周 、 查 看 的 游戏 和 查看 指标 得 分 功能 ， 
个 权重 之 和 需要 等 于 1。 在 ui.R 脚 本 中 添加 以 下 代码 得 到 的 结果 如 图 13-39 所 示 。 


权重 设置 包括 5 个 数值 输入 框 : 周 收入 权重 、 周 活跃 用 户 权重 、 第 7 日 留存 率 权 重 、 周 付费 率 权 重 和 周 ARPPU 权 重 ，5 


原始 数据 查询 


癌 一 款 游戏 在 不 同 有 棠 道 的 打分 模型 


帮助 文档 


sc [| | 


周 收入 令 。” 周 活 跃 用 户 数 令 。” 第 ?日 留存 率 急 。 周 付费 率 急 。 周 ARPPU 入 


311 989 0.024 0315 


814 0.012 i 


37040 0.017 0.432 
0.015 
0.055 


0.041 


汇通 A 
渠道 A 


Ni 


示 违 A 


870 
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图 13-37 原始 数据 查询 界面 


名 称 


回 global.R 
人民 rawdata.RData 
9) server.R 


加 uiR 


修改 日 期 


2016/10/11 18:17 
2016/10/10 20:27 
2016/10/12 10:32 
2016/10/11 20:47 


类 型 


R 文件 
R Workspace 
R 文件 
R 文件 


图 13-38 ”文件 保存 界面 


tabPanel ("同一 款 游戏 在 不 同 渠 道 的 打分 模型 "， 
( 


box 
title = "参数 选择 "，status = "primary", solidHeader = TRUE, width = 16, collapsible = TT, 
column (4, selectInput ("firstweek", "请 选择 起 始 周 "， 
levels,selected=" 第 18 周 "))， 
column (4, selectInput ("game", "请 选择 需要 查看 的 游戏 ", game) )， 
column (4, selectInput ("data", "请 选择 需要 查看 的 指标 得 分 "， 
C ("指标 综合 得 分 "=1， 

" 周 收入 指标 得 分 "=2， 

" 周 活跃 用 户 指标 得 分 "=3， 

"第 7 日 留存 率 指标 得 分 "=4， 

" 周 付费 率 指标 得 分 "=5， 

" 周 ARPPU 指 标 得 分 "=6) ) ) ) ， 


DoX ( 
title = "权重 设置 "，status = "primary", solidHeader = TRUE, width = 16, collapsible = TT, 
column (2,numericInput ("ww1l", " 周 收入 权重 ", Value=0.3,min=0,max=1, step=0.1))，, 
Column (2, numericInput ("w2"," 周 活跃 用 户 数 权重 ", Value=0.2,min=0,max=1, step=0.1))， 


column (2, numericInput ("mw3", "第 7 日 留存 座 权 重 ", Value=0.2,min=0,max=1, step=0.1))， 
column (2, numericInput ("mw4"," 周 付费 率 权重 ", Value=0.15,min=0,max=1, step=0.1))， 
column (2, numericInput ("ww5", " 周 ARPPU 权 重 ", Value=0.15,min=0,max=1, step=0.1)) 

) ) 


原始 数据 查询 同一 款 游戏 在 不 同志 道 的 打分 模型 帮助 文 


请 选择 起 始 周 请 选择 需要 查看 的 游戏 请 选择 需要 查看 的 指标 得 分 
第 18 周 游戏 A 指标 综合 得 分 


周 活跃 用 户 数 权重 第 划 留 存 率 权 重 周 付费 率 权重 周 ARPPU 权 重 


四 0.2 四 0.2 四 


图 13-39 ”参数 选择 和 权重 设置 界面 


在 server.R 脚 本 中 ， 根 据 用 户 选 择 的 起 始 周 和 需 要 查看 的 游戏 计算 不 同 指标 的 得 分 ， 再 根据 不 同 权重 选择 计算 最 后 各 个 渠道 的 综合 得 分 。 实 现代 码 如 下 。 


#server.R 
# # 同一 款 游戏 在 不 同 渠道 的 打分 模型 
selectdata <- reactivel(t{ 
rawdata[rawdata$ 自 然 周 >= inputs$firstweek & 
rawdata$ 游 戏 名 称 ==inputS$game, ] 


}) 
# 计 草 周 收入 的 得 分 模型 
channel revenue <- reactive ({ 
channel score (selectqata() [vc(' 渠 道 名 称 "， ' 自 然 周 ', ' 周 收入 ')]) 


}) 
# 计算 周 活跃 用 户 的 得 分 模型 
channel active <- teactive ({ 
channel score (selectqata() [vc(" 渠 道 名 称 '，' 自 然 周 "，' 周 活跃 用 户 数 ")] ) 


}) 
# 计算 第 7 日 留存 率 的 得 分 模型 
channel newretation <- reactive ({ 
channel score (selectdata() [vc(" 渠 道 名 称 '，' 自 然 周 '，!' 第 7 日 留存 率 ') ] ) 


} ) 
# 计算 周 付费 率 的 得 分 模型 
channel payrate <- Teactive ({ 
channel score (selectdata() [,c(' 渠 道 名 称 ', ' 自 然 周 ', ' 周 付费 率 ') ] ) 


}) 
# 计算 周 ARPU 的 得 分 模型 
channel arppu <- reactive({ 

channel score (selectdata() [,c(' 渠 道 名 称 ', ' 自然 周 ',' 周 ARPPU')]) 


}) 
# 计算 综合 得 分 
channel total <- reactive({ 
input$swl*channel revenue()+input$w2*channel active()+ 
input$w3*channel newretation()+input$w4*channel payrate()+ 
input$w5*channel arppu() 


}) 


现在 利用 switch 函 数 实现 根据 选择 的 指标 得 分 查看 相应 指标 得 分 的 效果 。 例 如 ， 想 查看 指标 综合 得 分 ， 在 server.R 和 ui.R 端 分 别 添加 以 下 代码 ， 得 到 的 指标 得 分 结果 如 图 13-40 所 示 。 


#server.R 
output$channel data <- DT::renderDataTable({ 
channel data <- Switch (inputsdata, 
'1'=channel total ()， 
'2'=channel revenue(), 
'3'=channel active(), 
'4'=channel newretation ()， 
'5'=channel payrate(), 
'6'=channel arppu () ) 
datatable (channel data) 
}) 
#ui.R 
box( 
title = "指标 得 分 "，status = "primary", solidHeader = TRUE, width = 16, collapsible = TT, 
DT: :dataTableOutput ("channel data")) 


图 13-40 为 以 第 18 周 为 起 始 周 (起 始 周 得 分 10 分 ) ， 查 看 游戏 A 在 不 同 渠 道 的 每 周 用 户 得 分 统计 。 


下 面 绘制 每 个 渠道 从 起 始 周到 最 近 一 周 的 得 分 曲线 ， 查 看 其 用 户 质 量 的 变化 情况 。 利 用 melt 遂 数 对 数据 进行 重 塑 ， 再 利用 lattice 包 中 的 xyplot 函 数 绘制 分 面板 的 栏 山 曲线 图 。 在 server.R 和 ui.R 中 分 别 添 
加 以 下 代码 ， 得 到 的 渠道 生存 曲线 如 图 13-41 所 示 。 


#server.R 
# 绘制 生存 曲线 
output$plotl <- renderPlot ({ 
channel total <- channel total () 
channel total$ 渠 道 名 称 <- rownames (channel total) # 增加 渠道 名 称 变量 
library (reshape) 
md <- melt (channel total idq=" 渠 道 名 称 ") # 对 数据 进行 重 塑 
md$Sweek <- ifelse (nchar (as.character (md$variable) )==4, 
substr (md$variable, 2,3), substr (md$variable,2,2)) # 增 加 周 数 变量 
md$week <- as.numeric (md$week) 
library (lattice) 
Xxyplot (value~week | 渠道 名 称 , data=md, type=c ("1","g")，, 
lwd=2, layout=C (6, 2) ) # 绘 制 面板 曲线 图 


}) 

#ui.R 

box( 

title = "渠道 生存 曲线 "，status = "primary", solidHeader = TRUE, width = 16, collapsible = T， 
plotOutput ("plot1")) 


| 指标 得 分 
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图 13-40 各 渠道 综合 得 分 统计 


从 图 13-41 可 知 ， 渠 道 G、 渠 道 F 的 生存 曲线 呈现 中 间 走 低 ， 后 期 走高 的 现象 渠道 A、 渠 道 B、 渠 道 D、 渠 道 K、 渠 道 L 这 几 个 渠道 最 近 几 个 月 的 用 户 表现 均 不 理想 ， 得 分 曲线 呈现 持续 走低 的 现象 。 


寺 


我 们 还 统计 了 各 个 渠道 最 新 一 周 的 各 指标 得 分 情况 ， 需 要 在 各 个 指标 得 分 表 中 提取 最 新 一 周 的 数据 进行 汇总 ， 通 过 channel data () [, ncol (channel data () ) ] 实 现 。 在 server.R 和 ui.R 中 分 别 添 
加 以 下 代码 ， 得 到 的 各 渠道 最 新 一 周 各 指标 用 户 得 分 情况 如 图 13-42 所 示 。 


#server.R 
# 提取 最 新 的 指标 打分 
new Score <- teactive ({ 

qata.frame (" 渠 道 "=rownames (channel total() )， 
" 周 收入 指标 得 分 "=channel revenue() [,ncol (channel frevenue () ) ] ， 
' 周 活跃 指标 得 分 '=channel active() [,ncol (channel _ active())]， 
"第 7 日 留存 率 指标 得 分 != channel newretation() [, ncol (channel newretation())], 
' 周 付费 率 指标 得 分 =channe1l payrate() [,ncol (channel payrate())], 
' 周 ARPPU 指 标 得 分 '=channel _ arppu () [,ncol (channel arppu() ) ]， 
' 指 标 综合 得 分 '=channel total () [,ncol (channel total ())]) 


}) 
output$new score <- DT::renderDataTable({ 
datatable (new Score () ) 

}) 

#ui .R 

box( 
title = "最 近 一 周 得 分 统计 "， status = "primary", solidHeader = TRUE, width = 16, collapsible = T， 
DT: :dataTableOutput ("new score"))) 


图 13-41 渠道 生存 曲线 


由 图 13-42 可 知 ， 渠 道 G 的 付费 率 用 户 指标 得 分 表现 优秀 ( 周 收入 指标 得 分 14.84， 周 ARPPU 指 标 得 分 17.27) ， 但 是 其 用 户 留存 率 表 现 不 理想 (第 7 日 留 邦 宰 指标 得 分 仅 有 3.34) ， 说 明渠 道 G 用 户 的 用 
户 付费 能 力 高 ， 但 是 用 户 黏 性 低 ， 需 要 对 这 个 渠道 实施 拉 留 存 措施 提高 留存 率 . 


帮助 文档 界面 就 是 一 些 用 户 打分 目的 和 规则 介绍 ， 只 需要 在 ui.R 添 加 文字 说 明 即 可 ， 结 果 如 图 13-43 所 示 。 


sae[ | 


周 收入 指标 得 分 久 周 活跃 指标 得 分 久 第 ?日 留存 率 指标 得 分 久 周 付费 率 指标 得 分 旬 周 ARPPU 指 标 得 分 久 指标 综合 得 分 久 


9.94 11.69 7.9885 


9.04 1038 B.247 


11.99 9.4985 


9.55 


13.8 


1728 


13.66 
11.01 9.0955 


9.57 7.6745 
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图 13-42 ”渠道 各 用 户 指标 最 新 一 周 得 分 情况 
原始 数据 查询 。 ”同一 款 游戏 在 不 同 渠道 的 打分 模型 。 帮助 文档 
打分 目的 : 们 需要 利用 渠道 运营 数据 中 的 关键 指标 数据 ， 构 建 通用 的 渠道 用 户 质量 评价 体系 ， 对 渠道 质量 进行 
综合 打分 评级 。 


指标 说 明 : 以 自然 周 为 研究 周期 ， 选 取 周 收入 、 周 活路 、 周 ARPPU、 周 付费 渗透 率 、7? 日 留存 率 作 为 五 大 基础 指标 ， 通 过 计算 各 个 指标 的 信和 度 和 效 度 ， 
对 渠道 用 户 的 基础 指标 进行 打分 


打分 规则 如 下 : 


了 指标 初始 分 都 是 10 分 ; 

2) 波动 性 得 分 =5*《 本 周 交 际 值 -上 周 实际 值 》 /最 近 四 向 的 最 大 值 

3) 量 级 得 分 =5* 探 道 本 周 值 /所 有 探 道 本 周 总 值 (只 有 周 收入 、 周 活跃 有 量 级 指标 ) 

4) 指标 得 分 = 上 周 得 分 + 波动 性 得 分 + 重 级 得 分 

5) 综合 得 分 =03* 周 收入 指标 得 分 +40.2* 周 活跃 指标 得 分 +02* 第 7 留存 率 指标 得 分 +0.15* 周 付费 率 指标 得 分 +0.15* 疝 ARPPU 指 标 得 分 


图 13-43 ”打分 平台 帮助 文档 


13.6 小 结 


本 章 介绍 了 shiny 和 shinydashboard 这 两 个 非常 优秀 的 扩展 包 ， 掌 握 了 用 R 语 言 轻松 开发 交互 式 Web 应 用 的 技能 。 通 过 三 个 实际 案例 的 步骤 分 解 ， 详 解 讲解 了 平台 框架 的 搭建 、 每 个 功能 模块 代码 的 设 
计 等 ， 使 读者 能 动手 搭建 属于 自己 的 数据 分 析 原 型 ， 将 掌握 的 数据 分 析 和 挖掘 技能 结合 shiny 包 开发 Web 应 用 。 


